Gegevens laden met behulp van een externe locatie van Unity Catalog
Belangrijk
Deze functie is beschikbaar als openbare preview.
In dit artikel wordt beschreven hoe u de gebruikersinterface voor het toevoegen van gegevens gebruikt om een beheerde tabel te maken op basis van gegevens in Azure Data Lake Storage Gen2 met behulp van een externe locatie van Unity Catalog. Een externe locatie is een object dat een cloudopslagpad combineert met een opslagreferentie waarmee toegang tot het cloudopslagpad wordt geautoriseerd.
Voordat u begint
Voordat u begint, moet u het volgende hebben:
- Een werkruimte waarvoor Unity Catalog is ingeschakeld. Zie Unity Catalog instellen en beheren voor meer informatie.
- De
READ FILES
bevoegdheid op de externe locatie. Zie Een externe locatie maken om cloudopslag te verbinden met Azure Databricks voor meer informatie. - De
CREATE TABLE
bevoegdheid voor het schema waarin u de beheerde tabel wilt maken, deUSE SCHEMA
bevoegdheid voor het schema en deUSE CATALOG
bevoegdheid voor de bovenliggende catalogus. Zie Unity Catalog-bevoegdheden en beveiligbare objecten voor meer informatie.
Bestandstypen
De volgende bestandstypen worden ondersteund:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Stap 1: De toegang tot de externe locatie bevestigen
Ga als volgt te werk om de toegang tot de externe locatie te bevestigen:
- Klik in de zijbalk van uw Azure Databricks-werkruimte op Catalogus.
- Klik in Catalog Explorer op Externe gegevens>externe locaties.
Stap 2: De beheerde tabel maken
Ga als volgt te werk om de beheerde tabel te maken:
Klik in de zijbalk van uw werkruimte op + Nieuwe>gegevens toevoegen.
Klik in de gebruikersinterface voor het toevoegen van gegevens op Azure Data Lake Storage.
Selecteer een externe locatie in de vervolgkeuzelijst.
Selecteer de mappen en de bestanden die u wilt laden in Azure Databricks en klik vervolgens op Voorbeeldtabel.
Selecteer een catalogus en een schema in de vervolgkeuzelijsten.
(Optioneel) Bewerk de tabelnaam.
(Optioneel) Als u geavanceerde indelingsopties wilt instellen op bestandstype, klikt u op Geavanceerde kenmerken, schakelt u Automatisch bestandstype detecteren uit en selecteert u vervolgens een bestandstype.
Zie de volgende sectie voor een lijst met indelingsopties.
(Optioneel) Als u de kolomnaam wilt bewerken, klikt u op het invoervak boven aan de kolom.
Kolomnamen ondersteunen geen komma's, backslashes of unicode-tekens (zoals emoji's).
(Optioneel) Als u kolomtypen wilt bewerken, klikt u op het pictogram met het type.
Klik op Tabel maken.
Indelingsopties voor bestandstypen
De volgende indelingsopties zijn beschikbaar, afhankelijk van het bestandstype:
Optie Opmaak | Beschrijving | Ondersteunde bestandstypen |
---|---|---|
Column delimiter |
Het scheidingsteken tussen kolommen. Er is slechts één teken toegestaan en backslash wordt niet ondersteund. De standaardwaarde is een komma. |
CSV |
Escape character |
Het escape-teken dat moet worden gebruikt bij het parseren van de gegevens. De standaardwaarde is een aanhalingsteken. |
CSV |
First row contains the header |
Met deze optie geeft u op of het bestand een header bevat. Standaard ingeschakeld. |
CSV |
Automatically detect file type |
Automatisch bestandstype detecteren. Standaard is true . |
XML |
Automatically detect column types |
Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op false, worden alle kolomtypen afgeleid als STRING. Standaard ingeschakeld. |
- CSV - JSON - XML |
Rows span multiple lines |
Of de waarde van een kolom meerdere regels in het bestand kan omvatten. Standaard uitgeschakeld. |
- CSV - JSON |
Merge the schema across multiple files |
Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaard ingeschakeld. |
CSV |
Allow comments |
Of opmerkingen zijn toegestaan in het bestand. Standaard ingeschakeld. |
JSON |
Allow single quotes |
Of enkele aanhalingstekens zijn toegestaan in het bestand. Standaard ingeschakeld. |
JSON |
Infer timestamp |
Of u tijdstempeltekenreeksen wilt afleiden als TimestampType .Standaard ingeschakeld. |
JSON |
Rescued data column |
Of kolommen moeten worden opgeslagen die niet overeenkomen met het schema. Zie Wat is de kolom met geredde gegevens? voor meer informatie. Standaard ingeschakeld. |
- CSV - JSON - Avro -Parket |
Exclude attribute |
Of kenmerken in elementen moeten worden uitgesloten. Standaard is false . |
XML |
Attribute prefix |
Het voorvoegsel voor kenmerken om kenmerken en elementen te onderscheiden. Standaard is _ . |
XML |
Kolomgegevenstypen
De volgende kolomgegevenstypen worden ondersteund. Zie SQL-gegevenstypen voor meer informatie over afzonderlijke gegevenstypen.
Gegevenssoort | Beschrijving |
---|---|
BIGINT |
8-byte ondertekende gehele getallen. |
BOOLEAN |
Booleaanse waarden (true , false waarden). |
DATE |
en dag, zonder een tijdzone. |
DECIMAL (P,S) |
Getallen met maximale precisie P en vaste schaal S . |
DOUBLE |
8-bytes dubbele precisie drijvendekommanummers. |
STRING |
Tekenreekswaarden. |
TIMESTAMP |
Waarden die bestaan uit waarden van velden jaar, maand, dag, uur, minuut en seconde, met de lokale tijdzone van de sessie. |
Bekende problemen
- Mogelijk ondervindt u problemen met speciale tekens in complexe gegevenstypen, zoals een JSON-object met een sleutel met een backtick of een dubbele punt.
- Voor sommige JSON-bestanden moet u mogelijk handmatig JSON selecteren voor het bestandstype. Als u handmatig een bestandstype wilt selecteren nadat u bestanden hebt geselecteerd, klikt u op Geavanceerde kenmerken, schakelt u Automatisch bestandstype detecteren uit en selecteert u vervolgens JSON.
- Geneste tijdstempels en decimalen binnen complexe typen kunnen problemen ondervinden.