Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload
Auf der Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload können Sie CSV-, TSV-, JSON, Avro-, Parquet- oder Textdateien hochladen, um eine verwaltete Delta Lake-Tabelle zu erstellen oder zu überschreiben.
Sie können verwaltete Delta-Tabellen in Unity Catalog oder im Hive-Metastore erstellen.
Hinweis
Darüber hinaus können Sie die Benutzeroberfläche zum Hinzufügen von Daten oder COPY INTO verwenden, um Dateien aus dem Cloud-Speicher zu laden.
Wichtig
- Sie müssen Zugriff auf eine ausgeführte Computeressource sowie Berechtigungen zum Erstellen von Tabellen in einem Zielschema haben.
- Arbeitsbereichsadministratoren können die Seite „Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload“ deaktivieren.
Sie können die Benutzeroberfläche verwenden, um eine Delta-Tabelle zu erstellen, indem Sie kleine CSV-, TSV-, JSON-, Avro-, Parquet- oder Textdateien von Ihrem lokalen Computer importieren.
- Die Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload unterstützt das gleichzeitige Hochladen von bis zu 10 Dateien.
- Die Gesamtgröße der hochgeladenen Dateien muss unter 2 Gigabyte betragen.
- Die Datei muss eine CSV-, TSV-, JSON-, Avro-, Parkett- oder Textdatei sein und die Erweiterung „CSV“, „TSV“ (oder „TAB“), „JSON“, „AVRO“, „PARQUET“ oder „TXT“ aufweisen.
- Komprimierte Dateien wie
zip
undtar
werden nicht unterstützt.
Hochladen der Datei
- Klicken Sie auf Neu > Daten hinzufügen.
- Klicken Sie auf Tabelle erstellen oder ändern.
- Klicken Sie auf die Schaltfläche „Dateibrowser“, oder ziehen Sie die Dateien, und legen Sie sie direkt im Ablagebereich ab.
Hinweis
Importierte Dateien werden an einen sicheren internen Speicherort innerhalb Ihres Kontos hochgeladen, für den täglich eine Garbage Collection ausgeführt wird.
Vorschau, Konfiguration und Erstellung einer Tabelle
Sie können Daten in den Stagingbereich hochladen, ohne eine Verbindung mit Computeressourcen herzustellen, doch Sie müssen eine aktive Computeressource auswählen, um eine Vorschau Ihrer Tabelle anzuzeigen und sie zu konfigurieren.
Sie können eine Vorschau von 50 Zeilen Ihrer Daten anzeigen, wenn Sie die Optionen für die hochgeladene Tabelle konfigurieren. Klicken Sie auf die Schaltfläche „Raster“ oder „Liste“ unter dem Dateinamen, um die Darstellungsweise Ihrer Daten zu ändern.
Azure Databricks speichert Datendateien für verwaltete Tabellen an den Speicherorten, die für das enthaltende Schema konfiguriert sind. Sie benötigen die geeigneten Berechtigungen zum Erstellen einer Tabelle in einem Schema.
Wählen Sie das gewünschte Schema aus, in dem Sie eine Tabelle erstellen möchten, indem Sie Folgendes ausführen:
- (Nur für Unity-Katalog-aktivierte Arbeitsbereiche) Sie können einen Katalog oder den Legacy-
hive_metastore
auswählen. - Wählen Sie ein Schema aus.
- (Optional) Bearbeiten Sie den Tabellennamen.
Hinweis
Sie können die Dropdownliste verwenden, um Vorhandene Tabelle überschreiben oder Neue Tabelle erstellen auszuwählen. Für Vorgänge, bei denen versucht wird, neue Tabellen mit Namenskonflikten zu erstellen, wird eine Fehlermeldung angezeigt.
Sie können Optionen oder Spalten konfigurieren, bevor Sie die Tabelle erstellen.
Klicken Sie zum Erstellen der Tabelle unten auf der Seite auf Erstellen.
Formatoptionen
Formatoptionen hängen vom Dateiformat ab, das Sie hochladen. Allgemeine Formatoptionen werden in der Kopfzeile angezeigt, während weniger häufig verwendete Optionen im Dialogfeld Erweiterte Attribute verfügbar sind.
- Für CSV-Dateien sind die folgenden Optionen verfügbar:
- Erste Zeile enthält Spaltenüberschriften (standardmäßig aktiviert): Diese Option gibt an, ob die CSV- oder TSV-Datei eine Kopfzeile enthält.
- Spaltentrennzeichen: Trennzeichen zwischen Spalten. Es ist nur ein einzelnes Zeichen zulässig, und der umgekehrte Schrägstrich wird nicht unterstützt. Bei CSV-Dateien ist standardmäßig das Komma festgelegt.
- Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als
STRING
abgeleitet. - Zeilen umfassen mehrere Zeilen (standardmäßig deaktiviert): gibt an, ob der Wert einer Spalte mehrere Zeilen in der Datei umfassen kann.
- Schema dateiübergreifend zusammenführen: Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Wenn diese Option deaktiviert ist, wird das Schema aus einer Datei verwendet.
- Für JSON sind die folgenden Optionen verfügbar:
- Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als
STRING
abgeleitet. - Zeilen umfassen mehrere Zeilen (standardmäßig aktiviert): Gibt an, ob der Wert einer Spalte mehrere Zeilen in der Datei umfassen kann.
- Kommentare zulassen (standardmäßig aktiviert): Gibt an, ob Kommentare in der Datei zulässig sind.
- Einfache Anführungszeichen zulassen (standardmäßig aktiviert): Gibt an, ob einzelne Anführungszeichen in der Datei zulässig sind.
- Zeitstempel ableiten (standardmäßig aktiviert): Gibt an, ob versucht wird, Zeitstempelzeichenfolgen als
TimestampType
abzuleiten.
- Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als
- Für JSON sind die folgenden Optionen verfügbar:
- Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als
STRING
abgeleitet. - Zeilen umfassen mehrere Zeilen (standardmäßig deaktiviert): gibt an, ob der Wert einer Spalte mehrere Zeilen in der Datei umfassen kann.
- Kommentare zulassen: Gibt an, ob Kommentare in der Datei zulässig sind.
- Einfache Anführungszeichen zulassen: Gibt an, ob einfache Anführungszeichen in der Datei zulässig sind.
- Zeitstempel ableiten: Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als
TimestampType
abzuleiten.
- Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als
Die Datenvorschau wird automatisch aktualisiert, wenn Sie Formatoptionen ändern.
Hinweis
Wenn Sie mehrere Dateien hochladen, gelten die folgenden Regeln:
- Headereinstellungen gelten für alle Dateien. Stellen Sie sicher, dass Header in allen hochgeladenen Dateien konsistent fehlen oder vorhanden sind, um Datenverluste zu vermeiden.
- Hochgeladene Dateien kombinieren, indem alle Daten als Zeilen in der Zieltabelle angefügt werden. Das Verknüpfen oder Zusammenführen von Datensätzen während des Dateiuploads wird nicht unterstützt.
Feldnamen und -typen
Sie können die Namen und Typen von Spalten bearbeiten.
Klicken Sie zum Bearbeiten von Typen auf das Symbol mit dem Typ.
Hinweis
Sie können geschachtelte Typen für
STRUCT
oderARRAY
nicht bearbeiten.Um den Spaltennamen zu bearbeiten, klicken Sie oben in der Spalte auf das Eingabefeld.
In Spaltennamen werden keine Kommas, umgekehrten Schrägstriche oder Unicode-Zeichen (z. B. Emojis) unterstützt.
Spaltendatentypen werden standardmäßig für CSV- und JSON-Dateien abgeleitet. Sie können alle Spalten als Typ STRING
interpretieren, indem Sie Erweiterte Attribute>Spaltentypen automatisch erkennen deaktivieren.
Hinweis
- Beim Schemarückschluss wird bestmöglich versucht, die Spaltentypen zu ermitteln. Das Ändern von Spaltentypen kann dazu führen, dass einige Werte in
NULL
umgewandelt werden, wenn der Wert nicht ordnungsgemäß in den Zieldatentyp umgewandelt werden kann. Eine Umwandlung vonBIGINT
inDATE
- oderTIMESTAMP
-Spalten wird nicht unterstützt. Databricks empfiehlt, zuerst eine Tabelle zu erstellen und danach diese Spalten mithilfe von SQL-Funktionen zu transformieren. - Um Tabellenspaltennamen mit Sonderzeichen zu unterstützen, wird Spaltenzuordnung von der Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload genutzt.
- Um Kommentare zu Spalten hinzuzufügen, erstellen Sie die Tabelle, und navigieren Sie dann zum Katalog-Explorer. Dort können Sie Kommentare hinzufügen.
Unterstützte Datentypen
Die Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload unterstützt die folgenden Datentypen. Weitere Informationen zu einzelnen Datentypen finden Sie unter SQL-Datentypen.
Datentyp | BESCHREIBUNG |
---|---|
BIGINT |
Ganze Zahlen mit Vorzeichen und einer Länge von 8 Byte |
BOOLEAN |
Boolesche Werte (true , false ) |
DATE |
Werte, die sich aus Feldern für Jahr, Monat und Tag ohne Zeitzone zusammensetzen |
DOUBLE |
Gleitkommazahlen mit doppelter Genauigkeit und einer Länge von 8 Byte |
STRING |
Zeichenfolgenwerte |
TIMESTAMP |
Werte, die sich aus Feldern für Jahr, Monat, Tag, Stunde, Minute und Sekunde mit der lokalen Zeitzone der Sitzung zusammensetzen |
STRUCT |
Werte mit der Struktur, die von einer Sequenz von Feldern beschrieben wird. |
ARRAY |
Werte mit einer Sequenz von Elementen mit dem TypelementType . |
DECIMAL(P,S) |
Zahlen mit maximaler Genauigkeit P und fester Skala S |
Bekannte Probleme
Das Umwandeln von BIGINT
in nicht umwandelbare Typen wie DATE
(z. B. Datumsangaben im Format „yyyyy“) kann zu Fehlern führen.