Megosztás a következőn keresztül:


Adatok betöltése unity katalógus külső hely használatával

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

Ez a cikk azt ismerteti, hogyan hozhat létre felügyelt táblát az Adatok hozzáadása felhasználói felületen az Azure Data Lake Storage Gen2-ben tárolt adatokból egy Külső Unity-katalógus használatával. A külső hely egy olyan objektum, amely egyesíti a felhőbeli tároló elérési útját egy tároló hitelesítő adataival, amely engedélyezi a felhőbeli tárolási elérési úthoz való hozzáférést.

Mielőtt elkezdené

Mielőtt hozzákezdene, a következőkre van szüksége:

Fájltípusok

A következő fájltípusok támogatottak:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parketta

1. lépés: A külső helyhez való hozzáférés megerősítése

A külső helyhez való hozzáférés megerősítéséhez tegye a következőket:

  1. Az Azure Databricks-munkaterület oldalsávjában kattintson a Katalógus elemre.
  2. A Katalóguskezelőben kattintson a Külső adatok>külső helyei elemre.

2. lépés: A felügyelt tábla létrehozása

A felügyelt tábla létrehozásához tegye a következőket:

  1. A munkaterület oldalsávjában kattintson az + Új>adat hozzáadása elemre.

  2. Az adat hozzáadása felhasználói felületen kattintson az Azure Data Lake Storage elemre.

  3. Válasszon egy külső helyet a legördülő listából.

  4. Jelölje ki az Azure Databricksbe betölteni kívánt mappákat és fájlokat, majd kattintson az Előzetes verzió táblára.

  5. Válasszon ki egy katalógust és egy sémát a legördülő listákból.

  6. (Nem kötelező) Szerkessze a tábla nevét.

  7. (Nem kötelező) Ha speciális formátumbeállításokat szeretne fájltípus szerint beállítani, kattintson a Speciális attribútumok elemre, kapcsolja ki a Fájltípus automatikus észlelése funkciót, majd válasszon ki egy fájltípust.

    A formátumbeállítások listáját a következő szakaszban találja.

  8. (Nem kötelező) Az oszlop nevének szerkesztéséhez kattintson az oszlop tetején található beviteli mezőre.

    Az oszlopnevek nem támogatják a vesszőket, a fordított perjeleket és a Unicode-karaktereket (például az emojikat).

  9. (Nem kötelező) Az oszloptípusok szerkesztéséhez kattintson a típust tartalmazó ikonra.

  10. Kattintson a Tábla létrehozása gombra.

Fájltípus formátumbeállításai

A fájl típusától függően a következő formátumbeállítások érhetők el:

Formátum beállítás Leírás Támogatott fájltípusok
Column delimiter Az elválasztó karakter az oszlopok között. Csak egy karakter engedélyezett, és a fordított perjel nem támogatott.

Az alapértelmezett érték egy vessző.
CSV
Escape character Az adatok elemzésekor használandó escape karakter.

Az alapértelmezett érték egy idézőjel.
CSV
First row contains the header Ez a beállítás megadja, hogy a fájl tartalmaz-e fejlécet.

Alapértelmezés szerint engedélyezett.
CSV
Automatically detect file type Automatikusan észleli a fájltípust. Az alapértelmezett szint a true. XML
Automatically detect column types Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, az összes oszloptípus sztringként lesz kikövetkeztetve.

Alapértelmezés szerint engedélyezett.
- CSV

- JSON
- XML
Rows span multiple lines Azt határozza meg, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.

Alapértelmezés szerint le van tiltva.
- CSV

- JSON
Merge the schema across multiple files Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és hogy egyesítse-e az egyes fájlok sémáját.

Alapértelmezés szerint engedélyezett.
CSV
Allow comments Azt jelzi, hogy a fájlban engedélyezettek-e megjegyzések.

Alapértelmezés szerint engedélyezett.
JSON
Allow single quotes Azt jelzi, hogy az egyes idézőjelek engedélyezve vannak-e a fájlban.

Alapértelmezés szerint engedélyezett.
JSON
Infer timestamp Az időbélyeg-sztringek következtetése a következőként TimestampType: .

Alapértelmezés szerint engedélyezett.
JSON
Rescued data column A sémának nem megfelelő oszlopok mentése. További információ: Mi a mentett adatoszlop?.

Alapértelmezés szerint engedélyezett.
- CSV

- JSON
- Avro
-Parketta
Exclude attribute Az elemek attribútumainak kizárása. Az alapértelmezett szint a false. XML
Attribute prefix Az attribútumok és elemek megkülönböztetésére szolgáló attribútumok előtagja. Az alapértelmezett szint a _. XML

Oszlop adattípusai

A következő oszlopadattípusok támogatottak. Az egyes adattípusokról további információt az SQL-adattípusokban talál.

Adattípus Leírás
BIGINT 8 bájtos aláírt egész szám.
BOOLEAN Logikai (true, false) értékek.
DATE és nap, időzóna nélkül.
DECIMAL (P,S) Maximális pontosságú P és rögzített skálázású Sszámok.
DOUBLE 8 bájtos dupla pontosságú lebegőpontos számok.
STRING Karaktersztringértékek.
TIMESTAMP Az év, hónap, nap, óra, perc és másodperc mezők értékeit tartalmazó értékek a munkamenet helyi időzónájával.

Ismert problémák

  • Összetett adattípusok speciális karaktereivel, például egy háttért vagy kettőspontot tartalmazó kulccsal rendelkező JSON-objektummal kapcsolatos problémák léphetnek fel.
  • Egyes JSON-fájlokhoz szükség lehet arra, hogy manuálisan válassza ki a JSON-t a fájltípushoz. Ha manuálisan szeretne fájltípust választani a fájlok kijelölése után, kattintson a Speciális attribútumok elemre, kapcsolja ki a Fájltípus automatikus észlelése funkciót, majd válassza a JSON lehetőséget.
  • Az összetett típusok beágyazott időbélyegei és tizedesjegyei problémákba ütközhetnek.