Laden in Delta Lake-Tabellen

Das Lakehouse in Microsoft Fabric bietet ein Feature zum effizienten Laden gängiger Dateitypen in eine optimierte Delta-Tabelle, die für Analysen bereit ist. Mit dem Feature In Tabelle laden können Benutzer*innen eine einzelne Datei oder einen Ordner mit Dateien in eine Tabelle laden. Dieses Feature erhöht die Produktivität für Data Engineers, da sie mit einem Rechtsklick schnell das Laden von Tabellen in Dateien und Ordnern aktivieren können. Das Laden in eine Tabelle ist ohne Code möglich, wodurch die Einstiegshürde für alle Personengruppen gesenkt wird.

Übersicht über die Funktionen zum Laden in Tabellen

Im Folgenden finden Sie eine Liste der Features, die wir auf der integrierten „In Tabelle laden“-Oberfläche aktiviert haben, um unseren Benutzer*innen Flexibilität zu bieten und gleichzeitig ihre Produktivität zu steigern:

  • Unterstützte Dateitypen: Dieses Feature unterstützt derzeit nur das Laden von PARQUET- oder CSV-Dateitypen. Die Groß-/Kleinschreibung der Dateierweiterungen spielt keine Rolle.

  • Laden einer einzelnen Datei: Benutzer*innen können eine einzelne Datei ihrer Wahl in einem der unterstützten Formate laden, indem sie „In Deltatabelle laden“ in der Kontextmenüaktion der Datei auswählen.

  • Laden auf Ordnerebene: Sie können alle Dateien eines Ordners und seiner Unterordner auf einmal laden, indem Sie „In Deltatabelle laden“ auswählen, nachdem Sie auf einen Ordner geklickt haben. Dieses Feature durchläuft automatisch alle Dateien und lädt sie in eine Delta-Tabelle. Es ist wichtig zu beachten, dass nur Dateien desselben Typs gleichzeitig in eine Tabelle geladen werden können.

  • Laden in neue und bestehende Tabellen: Die Benutzer*innen können auswählen, ob sie ihre Dateien und Ordner in eine neue Tabelle oder eine bestehende Tabelle ihrer Wahl laden möchten. Wenn sie sich dafür entscheiden, in eine bestehende Tabelle zu laden, haben sie die Möglichkeit, ihre Daten in der Tabelle entweder anzufügen oder zu überschreiben.

  • Die Option „CSV-Quelldatei“: Bei CSV-Dateien können die Benutzer*innen angeben, ob ihre Quelldatei Kopfzeilen enthält, die als Spaltennamen verwendet werden sollen. Benutzer*innen können auch ein Trennzeichen ihrer Wahl angeben, um das Standardkommatrennzeichen außer Kraft zu setzen.

  • Als Delta-Tabellen geladen: Tabellen werden immer mit dem Delta Lake-Tabellenformat geladen, wobei die Optimierung der V-Reihenfolge aktiviert ist.

    Gif of overall load folder to table experience.

Validierungsrichtlinien und -regeln

Für die „In Tabelle laden“-Oberfläche gilt der folgende Standard:

  • Tabellennamen dürfen nur alphanumerische Zeichen und Unterstriche enthalten. Außerdem sind alle Buchstaben des englischen Alphabets, Groß- und Kleinbuchstaben und Unterstriche (_), mit einer maximalen Länge von 256 Zeichen zulässig. Bindestriche (-) oder Leerzeichen sind unzulässig.

  • Textdateien ohne Spaltenüberschriften werden durch die col#-Standardnotation als Tabellenspaltennamen ersetzt.

  • Spaltennamen lassen alle Buchstaben des englischen Alphabets, Groß- oder Kleinbuchstaben, Unterstriche (_) und Zeichen in anderen Sprachen wie Chinesisch in UTF mit einer Länge von bis zu 32 Zeichen zu. Spaltennamen werden während der Ladeaktion überprüft. Der Load-to-Delta-Algorithmus ersetzt unzulässige Werte durch Unterstriche (_). Wenn im Rahmen der Überprüfung kein ordnungsgemäßer Spaltenname erzielt wird, schlägt die Ladeaktion fehl.

  • Bei CSV-Dateien darf das Trennzeichen nicht leer sein, nicht länger als 8 Zeichen sein, und es darf keines der folgenden Zeichen verwendet werden: (, ), [, ], {, }, einfache Anführungszeichen ('), doppelte Anführungszeichen (") und Leerzeichen.