Laden von Daten mithilfe eines externen Speicherorts von Unity Catalog

Artikel
11/07/2024

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel wird beschrieben, wie Sie mithilfe der Benutzeroberfläche zum Hinzufügen von Daten eine verwaltete Tabelle aus Daten in Azure Data Lake Storage Gen2 mithilfe eines externen Unity Catalog-Speicherorts erstellen. Ein externer Speicherort ist ein Objekt, das einen Cloudspeicherpfad mit Speicheranmeldeinformationen kombiniert, die einen Zugriff auf den Cloudspeicherpfad autorisieren.

Voraussetzungen

Bevor Sie mit diesem Lernprogramm beginnen können, benötigen Sie Folgendes:

Ein Arbeitsbereich, für den Unity Catalog aktiviert ist. Weitere Informationen finden Sie unter Einrichten und Verwalten von Unity Catalog.
Die Berechtigung READ FILES für den externen Speicherort. Weitere Informationen finden Sie unter Erstellen eines externen Speicherorts zum Verbinden des Cloudspeichers mit Azure Databricks.
Die CREATE TABLE-Berechtigung für das Schema, in dem Sie die verwaltete Tabelle erstellen möchten, sowie die USE SCHEMA-Berechtigung für das Schema und die USE CATALOG-Berechtigung für den übergeordneten Katalog. Weitere Informationen finden Sie unter Unity Catalog-Berechtigungen und sicherungsfähige Objekte.

Dateitypen

Die folgenden Dateitypen werden nicht unterstützt:

CSV
TSV
JSON
XML
AVRO
Parquet

Schritt 1: Überprüfen des Zugriffs auf den externen Speicherort

Gehen Sie wie folgt vor, um den Zugriff auf den externen Speicherort zu überprüfen:

Klicken Sie in der Seitenleiste Ihres Azure Databricks-Arbeitsbereichs auf Katalog.
Klicken Sie im Katalog-Explorer auf Externe Daten>Externe Speicherorte.

Schritt 2: Erstellen der verwalteten Tabelle

Gehen Sie wie folgt vor, um die verwaltete Tabelle zu erstellen:

Klicken Sie in der Seitenleiste Ihres Arbeitsbereichs auf + Neu>Daten hinzufügen.
Klicken Sie auf der Benutzeroberfläche zum Hinzufügen von Daten auf Azure Data Lake Storage.
Wählen Sie in der Dropdownliste einen externen Speicherort aus.
Wählen Sie die Ordner und Dateien aus, die Sie in Azure Databricks laden möchten, und klicken Sie dann auf Vorschau der Tabelle.
Wählen Sie einen Katalog und ein Schema in den Dropdownlisten aus.
(Optional) Bearbeiten Sie den Tabellennamen.
(Optional) Klicken Sie zum Festlegen erweiterter Formatoptionen nach Dateityp auf Erweiterte Attribute, deaktivieren Sie Dateityp automatisch erkennen, und wählen Sie dann einen Dateityp aus.

Eine Liste der Formatoptionen finden Sie im folgenden Abschnitt.
(Optional) Um den Spaltennamen zu bearbeiten, klicken Sie oben in der Spalte auf das Eingabefeld.

In Spaltennamen werden keine Kommas, umgekehrten Schrägstriche oder Unicode-Zeichen (z. B. Emojis) unterstützt.
(Optional) Klicken Sie zum Bearbeiten von Spaltentypen auf das Symbol mit dem Typ.
Klicken Sie auf Tabelle erstellen.

Formatoptionen für Dateitypen

Je nach Dateityp stehen die folgenden Formatoptionen zur Verfügung:

Formatoption	Beschreibung	Unterstützte Dateitypen
`Column delimiter`	Das Trennzeichen zwischen Spalten. Es ist nur ein einzelnes Zeichen zulässig, und der umgekehrte Schrägstrich wird nicht unterstützt. Der Standardwert ist ein Komma.	CSV
`Escape character`	Das Escapezeichen, das beim Analysieren der Daten verwendet werden soll. Der Standardwert ist ein Anführungszeichen.	CSV
`First row contains the header`	Diese Option gibt an, ob die Datei einen Header enthält. Standardmäßig aktiviert.	CSV
`Automatically detect file type`	Dateityp automatisch erkennen. Der Standardwert ist `true`.	XML
`Automatically detect column types`	Erkennt automatisch Spaltentypen im Dateiinhalt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf „false“ festgelegt ist, werden alle Spaltentypen als STRING abgeleitet. Standardmäßig aktiviert.	– CSV – JSON – XML
`Rows span multiple lines`	Gibt an, ob sich der Wert einer Spalte auf mehrere Zeilen in der Datei erstrecken kann. Standardmäßig deaktiviert.	– CSV – JSON
`Merge the schema across multiple files`	Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardmäßig aktiviert.	CSV
`Allow comments`	Gibt an, ob Kommentare in der Datei zulässig sind. Standardmäßig aktiviert.	JSON
`Allow single quotes`	Gibt an, ob einfache Anführungszeichen in der Datei zulässig sind. Standardmäßig aktiviert.	JSON
`Infer timestamp`	Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als `TimestampType` abzuleiten. Standardmäßig aktiviert.	JSON
`Rescued data column`	Gibt an, ob Spalten gespeichert werden sollen, die nicht dem Schema entsprechen. Weitere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?. Standardmäßig aktiviert.	– CSV – JSON – Avro – Parquet
`Exclude attribute`	Gibt an, ob Attribute in Elementen ausgeschlossen werden. Der Standardwert ist `false`.	XML
`Attribute prefix`	Das Präfix für Attribute, um Attribute und Elemente zu unterscheiden. Der Standardwert ist `_`.	XML

Spaltendatentypen

Die folgenden Spaltendatentypen werden unterstützt. Weitere Informationen zu einzelnen Datentypen finden Sie unter SQL-Datentypen.

Datentyp	BESCHREIBUNG
`BIGINT`	Ganze Zahlen mit Vorzeichen und einer Länge von 8 Byte
`BOOLEAN`	Boolesche Werte (`true`, `false`)
`DATE`	Tag ohne Zeitzone
`DECIMAL (P,S)`	Zahlen mit maximaler Genauigkeit `P` und fester Skala `S`
`DOUBLE`	Gleitkommazahlen mit doppelter Genauigkeit und einer Länge von 8 Byte
`STRING`	Zeichenfolgenwerte
`TIMESTAMP`	Werte, die sich aus Feldern für Jahr, Monat, Tag, Stunde, Minute und Sekunde mit der lokalen Zeitzone der Sitzung zusammensetzen

Bekannte Probleme

Möglicherweise treten Probleme mit Sonderzeichen in komplexen Datentypen auf, z. B. bei einem JSON-Objekt mit einem Schlüssel, der ein Graviszeichen oder einen Doppelpunkt enthält.
Einige JSON-Dateien erfordern möglicherweise, dass Sie manuell „JSON“ als Dateityp auswählen. Klicken Sie zum manuellen Auswählen eines Dateityps nach dem Auswählen von Dateien auf Erweiterte Attribute, deaktivieren Sie Dateityp automatisch erkennen, und wählen Sie dann JSON aus.
Bei geschachtelten Zeitstempeln und Dezimalzahlen in komplexen Typen treten möglicherweise Probleme auf.

Freigeben über