Gegevens laden met behulp van een externe locatie van Unity Catalog

Artikel
11/07/2024

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel wordt beschreven hoe u de gebruikersinterface voor het toevoegen van gegevens gebruikt om een beheerde tabel te maken op basis van gegevens in Azure Data Lake Storage Gen2 met behulp van een externe locatie van Unity Catalog. Een externe locatie is een object dat een cloudopslagpad combineert met een opslagreferentie waarmee toegang tot het cloudopslagpad wordt geautoriseerd.

Voordat u begint

Voordat u begint, moet u het volgende hebben:

Een werkruimte waarvoor Unity Catalog is ingeschakeld. Zie Unity Catalog instellen en beheren voor meer informatie.
De READ FILES bevoegdheid op de externe locatie. Zie Een externe locatie maken om cloudopslag te verbinden met Azure Databricks voor meer informatie.
De CREATE TABLE bevoegdheid voor het schema waarin u de beheerde tabel wilt maken, de USE SCHEMA bevoegdheid voor het schema en de USE CATALOG bevoegdheid voor de bovenliggende catalogus. Zie Unity Catalog-bevoegdheden en beveiligbare objecten voor meer informatie.

Bestandstypen

De volgende bestandstypen worden ondersteund:

CSV
TSV
JSON
XML
AVRO
Parquet

Stap 1: De toegang tot de externe locatie bevestigen

Ga als volgt te werk om de toegang tot de externe locatie te bevestigen:

Klik in de zijbalk van uw Azure Databricks-werkruimte op Catalogus.
Klik in Catalog Explorer op Externe gegevens>externe locaties.

Stap 2: De beheerde tabel maken

Ga als volgt te werk om de beheerde tabel te maken:

Klik in de zijbalk van uw werkruimte op + Nieuwe>gegevens toevoegen.
Klik in de gebruikersinterface voor het toevoegen van gegevens op Azure Data Lake Storage.
Selecteer een externe locatie in de vervolgkeuzelijst.
Selecteer de mappen en de bestanden die u wilt laden in Azure Databricks en klik vervolgens op Voorbeeldtabel.
Selecteer een catalogus en een schema in de vervolgkeuzelijsten.
(Optioneel) Bewerk de tabelnaam.
(Optioneel) Als u geavanceerde indelingsopties wilt instellen op bestandstype, klikt u op Geavanceerde kenmerken, schakelt u Automatisch bestandstype detecteren uit en selecteert u vervolgens een bestandstype.

Zie de volgende sectie voor een lijst met indelingsopties.
(Optioneel) Als u de kolomnaam wilt bewerken, klikt u op het invoervak boven aan de kolom.

Kolomnamen ondersteunen geen komma's, backslashes of unicode-tekens (zoals emoji's).
(Optioneel) Als u kolomtypen wilt bewerken, klikt u op het pictogram met het type.
Klik op Tabel maken.

Indelingsopties voor bestandstypen

De volgende indelingsopties zijn beschikbaar, afhankelijk van het bestandstype:

Optie Opmaak	Beschrijving	Ondersteunde bestandstypen
`Column delimiter`	Het scheidingsteken tussen kolommen. Er is slechts één teken toegestaan en backslash wordt niet ondersteund. De standaardwaarde is een komma.	CSV
`Escape character`	Het escape-teken dat moet worden gebruikt bij het parseren van de gegevens. De standaardwaarde is een aanhalingsteken.	CSV
`First row contains the header`	Met deze optie geeft u op of het bestand een header bevat. Standaard ingeschakeld.	CSV
`Automatically detect file type`	Automatisch bestandstype detecteren. Standaard is `true`.	XML
`Automatically detect column types`	Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op false, worden alle kolomtypen afgeleid als STRING. Standaard ingeschakeld.	- CSV - JSON - XML
`Rows span multiple lines`	Of de waarde van een kolom meerdere regels in het bestand kan omvatten. Standaard uitgeschakeld.	- CSV - JSON
`Merge the schema across multiple files`	Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaard ingeschakeld.	CSV
`Allow comments`	Of opmerkingen zijn toegestaan in het bestand. Standaard ingeschakeld.	JSON
`Allow single quotes`	Of enkele aanhalingstekens zijn toegestaan in het bestand. Standaard ingeschakeld.	JSON
`Infer timestamp`	Of u tijdstempeltekenreeksen wilt afleiden als `TimestampType`. Standaard ingeschakeld.	JSON
`Rescued data column`	Of kolommen moeten worden opgeslagen die niet overeenkomen met het schema. Zie Wat is de kolom met geredde gegevens? voor meer informatie. Standaard ingeschakeld.	- CSV - JSON - Avro -Parket
`Exclude attribute`	Of kenmerken in elementen moeten worden uitgesloten. Standaard is `false`.	XML
`Attribute prefix`	Het voorvoegsel voor kenmerken om kenmerken en elementen te onderscheiden. Standaard is `_`.	XML

Kolomgegevenstypen

De volgende kolomgegevenstypen worden ondersteund. Zie SQL-gegevenstypen voor meer informatie over afzonderlijke gegevenstypen.

Gegevenssoort	Beschrijving
`BIGINT`	8-byte ondertekende gehele getallen.
`BOOLEAN`	Booleaanse waarden (`true`, `false`waarden).
`DATE`	en dag, zonder een tijdzone.
`DECIMAL (P,S)`	Getallen met maximale precisie `P` en vaste schaal `S`.
`DOUBLE`	8-bytes dubbele precisie drijvendekommanummers.
`STRING`	Tekenreekswaarden.
`TIMESTAMP`	Waarden die bestaan uit waarden van velden jaar, maand, dag, uur, minuut en seconde, met de lokale tijdzone van de sessie.

Bekende problemen

Mogelijk ondervindt u problemen met speciale tekens in complexe gegevenstypen, zoals een JSON-object met een sleutel met een backtick of een dubbele punt.
Voor sommige JSON-bestanden moet u mogelijk handmatig JSON selecteren voor het bestandstype. Als u handmatig een bestandstype wilt selecteren nadat u bestanden hebt geselecteerd, klikt u op Geavanceerde kenmerken, schakelt u Automatisch bestandstype detecteren uit en selecteert u vervolgens JSON.
Geneste tijdstempels en decimalen binnen complexe typen kunnen problemen ondervinden.

Delen via