Freigeben über


Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload

Auf der Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload können Sie CSV-, TSV-, JSON, Avro-, Parquet- oder Textdateien hochladen, um eine verwaltete Delta Lake-Tabelle zu erstellen oder zu überschreiben.

Sie können verwaltete Delta-Tabellen in Unity Catalog oder im Hive-Metastore erstellen.

Hinweis

Darüber hinaus können Sie die Benutzeroberfläche zum Hinzufügen von Daten oder COPY INTO verwenden, um Dateien aus dem Cloud-Speicher zu laden.

Wichtig

Sie können die Benutzeroberfläche verwenden, um eine Delta-Tabelle zu erstellen, indem Sie kleine CSV-, TSV-, JSON-, Avro-, Parquet- oder Textdateien von Ihrem lokalen Computer importieren.

  • Die Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload unterstützt das gleichzeitige Hochladen von bis zu 10 Dateien.
  • Die Gesamtgröße der hochgeladenen Dateien muss unter 2 Gigabyte betragen.
  • Die Datei muss eine CSV-, TSV-, JSON-, Avro-, Parkett- oder Textdatei sein und die Erweiterung „CSV“, „TSV“ (oder „TAB“), „JSON“, „AVRO“, „PARQUET“ oder „TXT“ aufweisen.
  • Komprimierte Dateien wie zip und tar werden nicht unterstützt.

Hochladen der Datei

  1. Klicken Sie auf Symbol „Neu“ Neu > Daten hinzufügen.
  2. Klicken Sie auf Tabelle erstellen oder ändern.
  3. Klicken Sie auf die Schaltfläche „Dateibrowser“, oder ziehen Sie die Dateien, und legen Sie sie direkt im Ablagebereich ab.

Hinweis

Importierte Dateien werden an einen sicheren internen Speicherort innerhalb Ihres Kontos hochgeladen, für den täglich eine Garbage Collection ausgeführt wird.

Vorschau, Konfiguration und Erstellung einer Tabelle

Sie können Daten in den Stagingbereich hochladen, ohne eine Verbindung mit Computeressourcen herzustellen, doch Sie müssen eine aktive Computeressource auswählen, um eine Vorschau Ihrer Tabelle anzuzeigen und sie zu konfigurieren.

Sie können eine Vorschau von 50 Zeilen Ihrer Daten anzeigen, wenn Sie die Optionen für die hochgeladene Tabelle konfigurieren. Klicken Sie auf die Schaltfläche „Raster“ oder „Liste“ unter dem Dateinamen, um die Darstellungsweise Ihrer Daten zu ändern.

Azure Databricks speichert Datendateien für verwaltete Tabellen an den Speicherorten, die für das enthaltende Schema konfiguriert sind. Sie benötigen die geeigneten Berechtigungen zum Erstellen einer Tabelle in einem Schema.

Wählen Sie das gewünschte Schema aus, in dem Sie eine Tabelle erstellen möchten, indem Sie Folgendes ausführen:

  1. (Nur für Unity-Katalog-aktivierte Arbeitsbereiche) Sie können einen Katalog oder den Legacy-hive_metastore auswählen.
  2. Wählen Sie ein Schema aus.
  3. (Optional) Bearbeiten Sie den Tabellennamen.

Hinweis

Sie können die Dropdownliste verwenden, um Vorhandene Tabelle überschreiben oder Neue Tabelle erstellen auszuwählen. Für Vorgänge, bei denen versucht wird, neue Tabellen mit Namenskonflikten zu erstellen, wird eine Fehlermeldung angezeigt.

Sie können Optionen oder Spalten konfigurieren, bevor Sie die Tabelle erstellen.

Klicken Sie zum Erstellen der Tabelle unten auf der Seite auf Erstellen.

Formatoptionen

Formatoptionen hängen vom Dateiformat ab, das Sie hochladen. Allgemeine Formatoptionen werden in der Kopfzeile angezeigt, während weniger häufig verwendete Optionen im Dialogfeld Erweiterte Attribute verfügbar sind.

  • Für CSV-Dateien sind die folgenden Optionen verfügbar:
    • Erste Zeile enthält Spaltenüberschriften (standardmäßig aktiviert): Diese Option gibt an, ob die CSV- oder TSV-Datei eine Kopfzeile enthält.
    • Spaltentrennzeichen: Trennzeichen zwischen Spalten. Es ist nur ein einzelnes Zeichen zulässig, und der umgekehrte Schrägstrich wird nicht unterstützt. Bei CSV-Dateien ist standardmäßig das Komma festgelegt.
    • Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als STRING abgeleitet.
    • Zeilen umfassen mehrere Zeilen (standardmäßig deaktiviert): gibt an, ob der Wert einer Spalte mehrere Zeilen in der Datei umfassen kann.
    • Schema dateiübergreifend zusammenführen: Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Wenn diese Option deaktiviert ist, wird das Schema aus einer Datei verwendet.
  • Für JSON sind die folgenden Optionen verfügbar:
    • Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als STRING abgeleitet.
    • Zeilen umfassen mehrere Zeilen (standardmäßig aktiviert): Gibt an, ob der Wert einer Spalte mehrere Zeilen in der Datei umfassen kann.
    • Kommentare zulassen (standardmäßig aktiviert): Gibt an, ob Kommentare in der Datei zulässig sind.
    • Einfache Anführungszeichen zulassen (standardmäßig aktiviert): Gibt an, ob einzelne Anführungszeichen in der Datei zulässig sind.
    • Zeitstempel ableiten (standardmäßig aktiviert): Gibt an, ob versucht wird, Zeitstempelzeichenfolgen als TimestampType abzuleiten.
  • Für JSON sind die folgenden Optionen verfügbar:
    • Spaltentypen automatisch erkennen (standardmäßig aktiviert): Spaltentypen werden automatisch aus den Dateiinhalten erkannt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf FALSE festgelegt ist, werden alle Spaltentypen als STRING abgeleitet.
    • Zeilen umfassen mehrere Zeilen (standardmäßig deaktiviert): gibt an, ob der Wert einer Spalte mehrere Zeilen in der Datei umfassen kann.
    • Kommentare zulassen: Gibt an, ob Kommentare in der Datei zulässig sind.
    • Einfache Anführungszeichen zulassen: Gibt an, ob einfache Anführungszeichen in der Datei zulässig sind.
    • Zeitstempel ableiten: Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als TimestampType abzuleiten.

Die Datenvorschau wird automatisch aktualisiert, wenn Sie Formatoptionen ändern.

Hinweis

Wenn Sie mehrere Dateien hochladen, gelten die folgenden Regeln:

  • Headereinstellungen gelten für alle Dateien. Stellen Sie sicher, dass Header in allen hochgeladenen Dateien konsistent fehlen oder vorhanden sind, um Datenverluste zu vermeiden.
  • Hochgeladene Dateien kombinieren, indem alle Daten als Zeilen in der Zieltabelle angefügt werden. Das Verknüpfen oder Zusammenführen von Datensätzen während des Dateiuploads wird nicht unterstützt.

Feldnamen und -typen

Sie können die Namen und Typen von Spalten bearbeiten.

  • Klicken Sie zum Bearbeiten von Typen auf das Symbol mit dem Typ.

    Hinweis

    Sie können geschachtelte Typen für STRUCT oder ARRAY nicht bearbeiten.

  • Um den Spaltennamen zu bearbeiten, klicken Sie oben in der Spalte auf das Eingabefeld.

    In Spaltennamen werden keine Kommas, umgekehrten Schrägstriche oder Unicode-Zeichen (z. B. Emojis) unterstützt.

Spaltendatentypen werden standardmäßig für CSV- und JSON-Dateien abgeleitet. Sie können alle Spalten als Typ STRING interpretieren, indem Sie Erweiterte Attribute>Spaltentypen automatisch erkennen deaktivieren.

Hinweis

  • Beim Schemarückschluss wird bestmöglich versucht, die Spaltentypen zu ermitteln. Das Ändern von Spaltentypen kann dazu führen, dass einige Werte in NULL umgewandelt werden, wenn der Wert nicht ordnungsgemäß in den Zieldatentyp umgewandelt werden kann. Eine Umwandlung von BIGINT in DATE- oder TIMESTAMP-Spalten wird nicht unterstützt. Databricks empfiehlt, zuerst eine Tabelle zu erstellen und danach diese Spalten mithilfe von SQL-Funktionen zu transformieren.
  • Um Tabellenspaltennamen mit Sonderzeichen zu unterstützen, wird Spaltenzuordnung von der Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload genutzt.
  • Um Kommentare zu Spalten hinzuzufügen, erstellen Sie die Tabelle, und navigieren Sie dann zum Katalog-Explorer. Dort können Sie Kommentare hinzufügen.

Unterstützte Datentypen

Die Seite Erstellen oder Ändern einer Tabelle mithilfe von Dateiupload unterstützt die folgenden Datentypen. Weitere Informationen zu einzelnen Datentypen finden Sie unter SQL-Datentypen.

Datentyp BESCHREIBUNG
BIGINT Ganze Zahlen mit Vorzeichen und einer Länge von 8 Byte
BOOLEAN Boolesche Werte (true, false)
DATE Werte, die sich aus Feldern für Jahr, Monat und Tag ohne Zeitzone zusammensetzen
DOUBLE Gleitkommazahlen mit doppelter Genauigkeit und einer Länge von 8 Byte
STRING Zeichenfolgenwerte
TIMESTAMP Werte, die sich aus Feldern für Jahr, Monat, Tag, Stunde, Minute und Sekunde mit der lokalen Zeitzone der Sitzung zusammensetzen
STRUCT Werte mit der Struktur, die von einer Sequenz von Feldern beschrieben wird.
ARRAY Werte mit einer Sequenz von Elementen mit dem Typ
elementType.
DECIMAL(P,S) Zahlen mit maximaler Genauigkeit P und fester Skala S

Bekannte Probleme

Das Umwandeln von BIGINT in nicht umwandelbare Typen wie DATE(z. B. Datumsangaben im Format „yyyyy“) kann zu Fehlern führen.