Share via


Läsa in data med en extern plats i Unity Catalog

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Den här artikeln beskriver hur du använder användargränssnittet för att lägga till data för att skapa en hanterad tabell från data i Azure Data Lake Storage Gen2 med hjälp av en extern Unity Catalog-plats. En extern plats är ett objekt som kombinerar en molnlagringssökväg med en lagringsautentiseringsuppgift som ger åtkomst till molnlagringssökvägen.

Andra metoder för att läsa in data med hjälp av externa platser finns i Skapa en tabell från filer som lagras i din molnklientorganisation.

Innan du börjar

Innan du börjar måste du ha följande:

Filtyper

Följande filtyper stöds:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Steg 1: Bekräfta åtkomsten till den externa platsen

Gör följande för att bekräfta åtkomsten till den externa platsen:

  1. I sidofältet på din Azure Databricks-arbetsyta klickar du på Katalog.
  2. I Katalogutforskaren klickar du på Externa data>externa platser.

Steg 2: Skapa den hanterade tabellen

Gör följande för att skapa den hanterade tabellen:

  1. I sidofältet på arbetsytan klickar du på + Ny>Lägg till data.

  2. I lägg till datagränssnitt klickar du på Azure Data Lake Storage.

  3. Välj en extern plats i listrutan.

  4. Välj de mappar och filer som du vill läsa in i Azure Databricks och klicka sedan på Förhandsgranska tabell.

  5. Välj en katalog och ett schema i listrutorna.

  6. (Valfritt) Redigera tabellnamnet.

  7. (Valfritt) Om du vill ange avancerade formatalternativ efter filtyp klickar du på Avancerade attribut, inaktiverar Identifiera filtyp automatiskt och väljer sedan en filtyp.

    En lista över formatalternativ finns i följande avsnitt.

  8. (Valfritt) Om du vill redigera kolumnnamnet klickar du på indatarutan överst i kolumnen.

    Kolumnnamn stöder inte kommatecken, omvänt snedstreck eller unicode-tecken (till exempel emojis).

  9. (Valfritt) Om du vill redigera kolumntyper klickar du på ikonen med typen .

  10. Klicka på Skapa tabell.

Formatalternativ för filtyp

Följande formatalternativ är tillgängliga, beroende på filtyp:

Formatalternativ beskrivning Filtyper som stöds
Column delimiter Avgränsarens tecken mellan kolumner. Endast ett enda tecken tillåts och omvänt snedstreck stöds inte.

Standardvärdet är ett kommatecken.
CSV
Escape character Escape-tecknet som ska användas vid parsning av data.

Standardvärdet är ett citattecken.
CSV
First row contains the header Det här alternativet anger om filen innehåller ett huvud.

Aktiverat som standard.
CSV
Automatically detect file type Identifiera filtypen automatiskt. Standard är true. XML
Automatically detect column types Identifiera kolumntyper automatiskt från filinnehåll. Du kan redigera typer i förhandsgranskningstabellen. Om detta är inställt på false härleds alla kolumntyper som STRING.

Aktiverat som standard.
*CSV

*JSON
*XML
Rows span multiple lines Om en kolumns värde kan sträcka sig över flera rader i filen.

Inaktiverat som standard.
*CSV

*JSON
Merge the schema across multiple files Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas.

Aktiverat som standard.
CSV
Allow comments Om kommentarer tillåts i filen.

Aktiverat som standard.
JSON
Allow single quotes Om enkla citattecken tillåts i filen.

Aktiverat som standard.
JSON
Infer timestamp Om du vill försöka härleda tidsstämpelsträngar som TimestampType.

Aktiverat som standard.
JSON
Rescued data column Om du vill spara kolumner som inte matchar schemat. Mer information finns i Vad är den räddade datakolumnen?.

Aktiverat som standard.
*CSV

*JSON
*Avro
*Parkett
Exclude attribute Om du vill exkludera attribut i element. Standard är false. XML
Attribute prefix Prefixet för attribut för att särskilja attribut och element. Standard är _. XML

Kolumndatatyper

Följande kolumndatatyper stöds. Mer information om enskilda datatyper finns i SQL-datatyper.

Datatyp beskrivning
BIGINT 8 byte signerade heltalsnummer.
BOOLEAN Booleska (true, false) värden.
DATE och dag, utan tidszon.
DECIMAL (P,S) Tal med maximal precision P och fast skalning S.
DOUBLE Flyttal med 8 byte med dubbel precision.
STRING Teckensträngsvärden.
TIMESTAMP Värden som består av värden för fälten år, månad, dag, timme, minut och sekund, med den lokala tidszonen för sessionen.

Kända problem

  • Du kan få problem med specialtecken i komplexa datatyper, till exempel ett JSON-objekt med en nyckel som innehåller en backtick eller ett kolon.
  • Vissa JSON-filer kan kräva att du väljer JSON manuellt för filtypen. Om du vill välja en filtyp manuellt när du har valt filer klickar du på Avancerade attribut, inaktiverar Identifiera filtyp automatiskt och väljer sedan JSON.
  • Kapslade tidsstämplar och decimaler i komplexa typer kan stöta på problem.