Erfassen von Daten im Warehouse

Gilt für:✅ Warehouse in Microsoft Fabric

Warehouse in Microsoft Fabric bietet integrierte Datenerfassungstools, mit denen Benutzer*innen Daten im großen Stil in Warehouses erfassen können, indem sie No-Code- oder codebasierte Umgebungen verwenden.

Auswählen des Datenerfassungstools

Um zu entscheiden, welche Datenerfassungsoption verwendet werden soll, können Sie die folgenden Kriterien verwenden:

Verwenden Sie die Anweisung COPY (Transact-SQL) für codebasierte Datenerfassungsvorgänge, für den höchstmöglichen Datenerfassungsdurchsatz oder wenn Sie die Datenerfassung als Teil einer Transact-SQL-Logik hinzufügen müssen.
- Um zu beginnen, siehe Datenimport mithilfe der COPY-Anweisung.
- Das Warehouse unterstützt auch traditionelle BULK INSERT Aussagen, die synonym für COPY INTO klassische Ladeoptionen sind.
- Die COPY Anweisung in Warehouse unterstützt Datenquellen aus Azure-Speicherkonten und OneLake Lakehouse-Ordnern. OneLake-Quellen sind derzeit eine Vorschaufunktion.
Verwenden Sie Pipelines für codefreie oder low-code-, robuste Datenaufnahmeworkflows, die wiederholt, nach einem Zeitplan oder mit großen Datenmengen ausgeführt werden.
- Informationen zu den ersten Schritten finden Sie unter "Aufnehmen von Daten in Ihr Warehouse mithilfe von Pipelines".
- Durch die Verwendung von Pipelines können Sie stabile Workflows für vollständiges Extrahieren, Transformieren, Laden (ETL) orchestrieren. Das umfasst Aktivitäten zum Vorbereiten der Zielumgebung, zum Ausführen benutzerdefinierter Transact-SQL-Anweisungen, zum Ausführen von Lookups oder zum Kopieren von Daten aus einer Quelle in ein Ziel.
Verwenden Sie Dataflows, die benutzerdefinierte No-Code-Transformationen zu Quelldaten ermöglichen, bevor die Daten erfasst werden.
- Informationen zu den ersten Schritten finden Sie unter "Aufnehmen von Daten mithilfe eines Datenflusses".
- Diese Transformationen schließen (unter anderem) das Ändern von Datentypen, das Hinzufügen oder Entfernen von Spalten oder das Verwenden von Funktionen zum Erstellen berechneter Spalten ein.
Verwenden Sie die T-SQL-Aufnahme für codereiche Erfahrungen, um neue Tabellen zu erstellen oder vorhandene mit Quelldaten innerhalb desselben Arbeitsbereichs oder externen Speichers zu aktualisieren.
- Informationen zu den ersten Schritten finden Sie unter "Aufnehmen von Daten in Ihr Warehouse mithilfe von Transact-SQL".
- Sie können Transact-SQL Features wie INSERT...SELECT, oder SELECT INTOCREATE TABLE AS SELECT (CTAS) zum Lesen von Daten aus einer Tabelle verwenden, die auf andere Lagerhäuser, Lakehouses oder gespiegelte Datenbanken innerhalb desselben Arbeitsbereichs verweisen, oder um Daten aus OPENROWSET Funktionen zu lesen, die auf Dateien in den externen Azure-Speicherkonten verweisen.
- Sie können auch datenbankübergreifende Abfragen zwischen verschiedenen Lagerhäusern in Ihrem Fabric-Arbeitsbereich schreiben .

Unterstützte Datenformate und Datenquellen

Die Datenerfassung für Warehouse in Microsoft Fabric bietet eine Vielzahl von Datenformaten und -quellen, die Sie verwenden können. Jede der beschriebenen Optionen enthält eine eigene Liste der unterstützten Datentypen und Datenformate.

Für die T-SQL-Erfassung müssen Sich Tabellendatenquellen innerhalb desselben Microsoft Fabric-Arbeitsbereichs befinden, und Dateidatenquellen müssen sich in Azure Data Lake oder Azure Blob Storage befinden. Abfragen können mit dreiteiliger Namensgebung oder der OPENROWSET-Funktion für die Quelldaten ausgeführt werden. Tabellendatenquellen können auf Delta Lake-Datasets verweisen, während OPENROWSET() auf Parkett-, CSV- oder JSONL-Dateien in Azure Data Lake oder Azure Blob Storage verweisen kann.

Nehmen Sie zum Beispiel an, es gäbe in einem Arbeitsbereich zwei Warehouses mit den Namen „Inventory“ und „Sales“. Eine Abfrage wie die folgende erstellt eine neue Tabelle im Lagerbestand mit dem Inhalt einer Tabelle im Lagerbestand, verbunden mit einer Tabelle im Verkaufslager und mit externen Dateien, die Kundeninformationen enthalten:

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT 
    s.SalesOrders,
    i.ProductName,
    c.CustomerName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
    ON s.ProductID = i.ProductID
JOIN OPENROWSET( BULK 'abfss://<container>@<storage>.dfs.core.windows.net/<customer-file>.csv' ) AS c
    ON s.CustomerID = c.CustomerID
WHERE s.Region = 'West region';

Note

Das Lesen von Daten mithilfe von OPENROWSET kann langsamer sein als das Abfragen von Daten aus einer Tabelle. Wenn Sie beabsichtigen, wiederholt auf dieselben externen Daten zuzugreifen, sollten Sie sie in eine dedizierte Tabelle aufnehmen, um die Leistung und Abfrageeffizienz zu verbessern.

Die Anweisung COPY (Transact-SQL) unterstützt derzeit die Dateiformate PARQUET und CSV. Als Datenquellen werden derzeit Azure Data Lake Storage (ADLS) Gen2 und Azure Blob Storage unterstützt.

Pipelines und Dataflows unterstützen eine Vielzahl von Datenquellen und Datenformaten. Weitere Informationen finden Sie unter Pipelines und Dataflows.

Bewährte Methoden

Das COPY-Befehlsfeature in Warehouse in Microsoft Fabric verwendet eine einfache, flexible und schnelle Schnittstelle für die Datenerfassung mit hohem Durchsatz für SQL-Workloads. Das ausschließliche Laden von Daten aus externen Speicherkonten wird in der aktuellen Version unterstützt.

Sie können auch T-SQL-Sprache verwenden, um eine neue Tabelle zu erstellen und dann in sie einzufügen, und dann Zeilen mit Daten aktualisieren und löschen. Daten können mithilfe datenbankübergreifender Abfragen aus einer beliebigen Datenbank innerhalb des Microsoft Fabric-Arbeitsbereichs eingefügt werden. Wenn Sie Daten aus einem Lakehouse in einem Warehouse erfassen möchten, können Sie dies mit einer datenbankübergreifenden Abfrage tun. Beispiel:

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;

Vermeiden Sie das Einlesen von Daten mit Singleton-Anweisungen INSERT, da dies zu Leistungsproblemen bei Abfragen und Updates führt. Wenn Singleton-Anweisungen INSERT für die Datenaufnahme aufeinanderfolgend verwendet wurden, empfehlen wir, eine neue Tabelle mithilfe von CREATE TABLE AS SELECT (CTAS)-Mustern oder INSERT...SELECT-Mustern zu erstellen, die ursprüngliche Tabelle abzulegen und dann Ihre Tabelle aus der zuvor mit CREATE TABLE AS SELECT (CTAS) erstellten Tabelle neu zu erstellen.
- Das Löschen Ihrer bestehenden Tabelle wirkt sich auf Ihr semantisches Modell aus, einschließlich aller benutzerdefinierten Kennzahlen oder Anpassungen, die Sie am semantischen Modell vorgenommen haben.
Bei der Verwendung externer Daten für Dateien wird eine Mindestdateigröße von 4 MB empfohlen.
Bei großen komprimierten CSV-Dateien sollten Sie erwägen, die Datei in mehrere Dateien aufzuteilen.
Azure Data Lake Storage Gen2 (ADLS) bietet eine bessere Leistung als Azure Blob Storage (Legacy). Ziehen Sie nach Möglichkeit die Verwendung eines ADLS Gen2-Kontos in Betracht.
Für häufig ausgeführte Pipelines sollten Sie erwägen, Ihr Azure-Speicherkonto von anderen Diensten zu isolieren, die gleichzeitig auf dieselben Dateien zugreifen können.
Explizite Transaktionen ermöglichen es Ihnen, mehrere Datenänderungen zu gruppieren, sodass sie nur beim Lesen einer oder mehrerer Tabellen sichtbar sind, wenn die Transaktion vollständig committet wurde. Sie haben auch die Möglichkeit, einen Rollback für die Transaktion auszuführen, wenn eine der Änderungen fehlschlägt.
Wenn sich eine SELECT-Anweisung innerhalb einer Transaktion befindet und Dateneinfügungen vorangestellt wurden, können die automatisch generierten Statistiken nach einem Rollback möglicherweise Fehler aufweisen. Ungenaue Statistiken können zu nicht optimierten Abfrageplänen und Ausführungszeiten führen. Wenn Sie ein Rollback für eine Transaktion mit SELECT-Anweisungen nach einem großen INSERT-Vorgang durchführen, aktualisieren Sie die Statistiken für die in der SELECT-Anweisung genannten Spalten.

Note

Unabhängig davon, wie Sie Daten in Warehouses erfassen, werden die von der Datenerfassungsaufgabe erzeugten Parquet-Dateien mithilfe von V-Order optimiert. V-Order optimiert Parquet-Dateien, um blitzschnelle Lesevorgänge unter den Microsoft Fabric-Rechenmodulen wie Power BI, SQL, Spark und anderen zu ermöglichen. Warehouse-Abfragen profitieren durch diese Optimierung im Allgemeinen von schnelleren Lesezeiten für Abfragen, wobei sichergestellt wird, dass die Parquet-Dateien weiterhin zu 100 % der Open Source-Spezifikation entsprechen. Es wird nicht empfohlen, die V-Reihenfolge zu deaktivieren, da sie sich auf die Leseleistung auswirken kann. Weitere Informationen zu V-Order finden Sie unter Grundlegendes und Verwalten von V-Order für Warehouse.

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-03

Teilen über

Erfassen von Daten im Warehouse

Auswählen des Datenerfassungstools

Unterstützte Datenformate und Datenquellen

Bewährte Methoden

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen