Adatok betöltése unity katalógus külső hely használatával
Fontos
Ez a funkció a nyilvános előzetes verzióban érhető el.
Ez a cikk azt ismerteti, hogyan hozhat létre felügyelt táblát az Adatok hozzáadása felhasználói felületen az Azure Data Lake Storage Gen2-ben tárolt adatokból egy Külső Unity-katalógus használatával. A külső hely egy olyan objektum, amely egyesíti a felhőbeli tároló elérési útját egy tároló hitelesítő adataival, amely engedélyezi a felhőbeli tárolási elérési úthoz való hozzáférést.
Mielőtt elkezdené
Mielőtt hozzákezdene, a következőkre van szüksége:
- Egy olyan munkaterület, amelyen engedélyezve van a Unity Catalog. További információ: Unity Catalog beállítása és kezelése.
- A
READ FILES
külső helyen lévő jogosultság. További információ: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához. - A
CREATE TABLE
séma azon jogosultsága, amelyben létre szeretné hozni a felügyelt táblát, aUSE SCHEMA
séma jogosultságát és aUSE CATALOG
szülőkatalógus jogosultságát. További információ: Unity Catalog-jogosultságok és biztonságos objektumok.
Fájltípusok
A következő fájltípusok támogatottak:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parketta
1. lépés: A külső helyhez való hozzáférés megerősítése
A külső helyhez való hozzáférés megerősítéséhez tegye a következőket:
- Az Azure Databricks-munkaterület oldalsávjában kattintson a Katalógus elemre.
- A Katalóguskezelőben kattintson a Külső adatok>külső helyei elemre.
2. lépés: A felügyelt tábla létrehozása
A felügyelt tábla létrehozásához tegye a következőket:
A munkaterület oldalsávjában kattintson az + Új>adat hozzáadása elemre.
Az adat hozzáadása felhasználói felületen kattintson az Azure Data Lake Storage elemre.
Válasszon egy külső helyet a legördülő listából.
Jelölje ki az Azure Databricksbe betölteni kívánt mappákat és fájlokat, majd kattintson az Előzetes verzió táblára.
Válasszon ki egy katalógust és egy sémát a legördülő listákból.
(Nem kötelező) Szerkessze a tábla nevét.
(Nem kötelező) Ha speciális formátumbeállításokat szeretne fájltípus szerint beállítani, kattintson a Speciális attribútumok elemre, kapcsolja ki a Fájltípus automatikus észlelése funkciót, majd válasszon ki egy fájltípust.
A formátumbeállítások listáját a következő szakaszban találja.
(Nem kötelező) Az oszlop nevének szerkesztéséhez kattintson az oszlop tetején található beviteli mezőre.
Az oszlopnevek nem támogatják a vesszőket, a fordított perjeleket és a Unicode-karaktereket (például az emojikat).
(Nem kötelező) Az oszloptípusok szerkesztéséhez kattintson a típust tartalmazó ikonra.
Kattintson a Tábla létrehozása gombra.
Fájltípus formátumbeállításai
A fájl típusától függően a következő formátumbeállítások érhetők el:
Formátum beállítás | Leírás | Támogatott fájltípusok |
---|---|---|
Column delimiter |
Az elválasztó karakter az oszlopok között. Csak egy karakter engedélyezett, és a fordított perjel nem támogatott. Az alapértelmezett érték egy vessző. |
CSV |
Escape character |
Az adatok elemzésekor használandó escape karakter. Az alapértelmezett érték egy idézőjel. |
CSV |
First row contains the header |
Ez a beállítás megadja, hogy a fájl tartalmaz-e fejlécet. Alapértelmezés szerint engedélyezett. |
CSV |
Automatically detect file type |
Automatikusan észleli a fájltípust. Az alapértelmezett szint a true . |
XML |
Automatically detect column types |
Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, az összes oszloptípus sztringként lesz kikövetkeztetve. Alapértelmezés szerint engedélyezett. |
- CSV - JSON - XML |
Rows span multiple lines |
Azt határozza meg, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban. Alapértelmezés szerint le van tiltva. |
- CSV - JSON |
Merge the schema across multiple files |
Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és hogy egyesítse-e az egyes fájlok sémáját. Alapértelmezés szerint engedélyezett. |
CSV |
Allow comments |
Azt jelzi, hogy a fájlban engedélyezettek-e megjegyzések. Alapértelmezés szerint engedélyezett. |
JSON |
Allow single quotes |
Azt jelzi, hogy az egyes idézőjelek engedélyezve vannak-e a fájlban. Alapértelmezés szerint engedélyezett. |
JSON |
Infer timestamp |
Az időbélyeg-sztringek következtetése a következőként TimestampType : .Alapértelmezés szerint engedélyezett. |
JSON |
Rescued data column |
A sémának nem megfelelő oszlopok mentése. További információ: Mi a mentett adatoszlop?. Alapértelmezés szerint engedélyezett. |
- CSV - JSON - Avro -Parketta |
Exclude attribute |
Az elemek attribútumainak kizárása. Az alapértelmezett szint a false . |
XML |
Attribute prefix |
Az attribútumok és elemek megkülönböztetésére szolgáló attribútumok előtagja. Az alapértelmezett szint a _ . |
XML |
Oszlop adattípusai
A következő oszlopadattípusok támogatottak. Az egyes adattípusokról további információt az SQL-adattípusokban talál.
Adattípus | Leírás |
---|---|
BIGINT |
8 bájtos aláírt egész szám. |
BOOLEAN |
Logikai (true , false ) értékek. |
DATE |
és nap, időzóna nélkül. |
DECIMAL (P,S) |
Maximális pontosságú P és rögzített skálázású S számok. |
DOUBLE |
8 bájtos dupla pontosságú lebegőpontos számok. |
STRING |
Karaktersztringértékek. |
TIMESTAMP |
Az év, hónap, nap, óra, perc és másodperc mezők értékeit tartalmazó értékek a munkamenet helyi időzónájával. |
Ismert problémák
- Összetett adattípusok speciális karaktereivel, például egy háttért vagy kettőspontot tartalmazó kulccsal rendelkező JSON-objektummal kapcsolatos problémák léphetnek fel.
- Egyes JSON-fájlokhoz szükség lehet arra, hogy manuálisan válassza ki a JSON-t a fájltípushoz. Ha manuálisan szeretne fájltípust választani a fájlok kijelölése után, kattintson a Speciális attribútumok elemre, kapcsolja ki a Fájltípus automatikus észlelése funkciót, majd válassza a JSON lehetőséget.
- Az összetett típusok beágyazott időbélyegei és tizedesjegyei problémákba ütközhetnek.