Delen via


Gegevens laden met behulp van een externe locatie van Unity Catalog

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel wordt beschreven hoe u de gebruikersinterface voor het toevoegen van gegevens gebruikt om een beheerde tabel te maken op basis van gegevens in Azure Data Lake Storage Gen2 met behulp van een externe locatie van Unity Catalog. Een externe locatie is een object dat een cloudopslagpad combineert met een opslagreferentie waarmee toegang tot het cloudopslagpad wordt geautoriseerd.

Voordat u begint

Voordat u begint, moet u het volgende hebben:

Bestandstypen

De volgende bestandstypen worden ondersteund:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Stap 1: De toegang tot de externe locatie bevestigen

Ga als volgt te werk om de toegang tot de externe locatie te bevestigen:

  1. Klik in de zijbalk van uw Azure Databricks-werkruimte op Catalogus.
  2. Klik in Catalog Explorer op Externe gegevens>externe locaties.

Stap 2: De beheerde tabel maken

Ga als volgt te werk om de beheerde tabel te maken:

  1. Klik in de zijbalk van uw werkruimte op + Nieuwe>gegevens toevoegen.

  2. Klik in de gebruikersinterface voor het toevoegen van gegevens op Azure Data Lake Storage.

  3. Selecteer een externe locatie in de vervolgkeuzelijst.

  4. Selecteer de mappen en de bestanden die u wilt laden in Azure Databricks en klik vervolgens op Voorbeeldtabel.

  5. Selecteer een catalogus en een schema in de vervolgkeuzelijsten.

  6. (Optioneel) Bewerk de tabelnaam.

  7. (Optioneel) Als u geavanceerde indelingsopties wilt instellen op bestandstype, klikt u op Geavanceerde kenmerken, schakelt u Automatisch bestandstype detecteren uit en selecteert u vervolgens een bestandstype.

    Zie de volgende sectie voor een lijst met indelingsopties.

  8. (Optioneel) Als u de kolomnaam wilt bewerken, klikt u op het invoervak boven aan de kolom.

    Kolomnamen ondersteunen geen komma's, backslashes of unicode-tekens (zoals emoji's).

  9. (Optioneel) Als u kolomtypen wilt bewerken, klikt u op het pictogram met het type.

  10. Klik op Tabel maken.

Indelingsopties voor bestandstypen

De volgende indelingsopties zijn beschikbaar, afhankelijk van het bestandstype:

Optie Opmaak Beschrijving Ondersteunde bestandstypen
Column delimiter Het scheidingsteken tussen kolommen. Er is slechts één teken toegestaan en backslash wordt niet ondersteund.

De standaardwaarde is een komma.
CSV
Escape character Het escape-teken dat moet worden gebruikt bij het parseren van de gegevens.

De standaardwaarde is een aanhalingsteken.
CSV
First row contains the header Met deze optie geeft u op of het bestand een header bevat.

Standaard ingeschakeld.
CSV
Automatically detect file type Automatisch bestandstype detecteren. Standaard is true. XML
Automatically detect column types Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op false, worden alle kolomtypen afgeleid als STRING.

Standaard ingeschakeld.
- CSV

- JSON
- XML
Rows span multiple lines Of de waarde van een kolom meerdere regels in het bestand kan omvatten.

Standaard uitgeschakeld.
- CSV

- JSON
Merge the schema across multiple files Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen.

Standaard ingeschakeld.
CSV
Allow comments Of opmerkingen zijn toegestaan in het bestand.

Standaard ingeschakeld.
JSON
Allow single quotes Of enkele aanhalingstekens zijn toegestaan in het bestand.

Standaard ingeschakeld.
JSON
Infer timestamp Of u tijdstempeltekenreeksen wilt afleiden als TimestampType.

Standaard ingeschakeld.
JSON
Rescued data column Of kolommen moeten worden opgeslagen die niet overeenkomen met het schema. Zie Wat is de kolom met geredde gegevens? voor meer informatie.

Standaard ingeschakeld.
- CSV

- JSON
- Avro
-Parket
Exclude attribute Of kenmerken in elementen moeten worden uitgesloten. Standaard is false. XML
Attribute prefix Het voorvoegsel voor kenmerken om kenmerken en elementen te onderscheiden. Standaard is _. XML

Kolomgegevenstypen

De volgende kolomgegevenstypen worden ondersteund. Zie SQL-gegevenstypen voor meer informatie over afzonderlijke gegevenstypen.

Gegevenssoort Beschrijving
BIGINT 8-byte ondertekende gehele getallen.
BOOLEAN Booleaanse waarden (true, falsewaarden).
DATE en dag, zonder een tijdzone.
DECIMAL (P,S) Getallen met maximale precisie P en vaste schaal S.
DOUBLE 8-bytes dubbele precisie drijvendekommanummers.
STRING Tekenreekswaarden.
TIMESTAMP Waarden die bestaan uit waarden van velden jaar, maand, dag, uur, minuut en seconde, met de lokale tijdzone van de sessie.

Bekende problemen

  • Mogelijk ondervindt u problemen met speciale tekens in complexe gegevenstypen, zoals een JSON-object met een sleutel met een backtick of een dubbele punt.
  • Voor sommige JSON-bestanden moet u mogelijk handmatig JSON selecteren voor het bestandstype. Als u handmatig een bestandstype wilt selecteren nadat u bestanden hebt geselecteerd, klikt u op Geavanceerde kenmerken, schakelt u Automatisch bestandstype detecteren uit en selecteert u vervolgens JSON.
  • Geneste tijdstempels en decimalen binnen complexe typen kunnen problemen ondervinden.