Tábla létrehozása vagy módosítása fájlfeltöltéssel
A tábla fájlfeltöltési oldallal történő létrehozása vagy módosítása lehetővé teszi CSV-, TSV- vagy JSON-, Avro-, Parquet- vagy szövegfájlok feltöltését felügyelt Delta Lake-tábla létrehozásához vagy felülírásához.
Felügyelt Delta-táblákat a Unity Katalógusban vagy a Hive metaadattárban hozhat létre.
Feljegyzés
Emellett használhatja az Adat hozzáadása felhasználói felületet vagy a COPY INTO függvényt a fájlok felhőbeli tárolóból való betöltéséhez.
Fontos
- Hozzáféréssel kell rendelkeznie egy futó számítási erőforráshoz és engedélyekkel ahhoz, hogy táblákat hozzon létre egy célsémában.
- A munkaterület rendszergazdái letilthatják a tábla létrehozását vagy módosítását a fájlfeltöltési lapon.
A felhasználói felületen deltatáblát hozhat létre, ha kis CSV-, TSV-, JSON-, Avro-, Parquet- vagy szövegfájlokat importál a helyi gépről.
- A tábla létrehozása vagy módosítása fájlfeltöltési oldal használatával egyszerre legfeljebb 10 fájl feltöltését támogatja.
- A feltöltött fájlok teljes méretének 2 gigabájt alatt kell lennie.
- A fájlnak CSV, TSV, JSON, Avro, Parquet vagy szöveges fájlnak kell lennie, és a kiterjesztésnek ".csv", ".tsv" (vagy ".tab"), ".json", ".avro", ".parquet" vagy ".txt" kiterjesztéssel kell rendelkeznie.
- A tömörített fájlok, például
zip
a fájlok nemtar
támogatottak.
A fájl feltöltése
- Kattintson az Új > adat hozzáadása elemre.
- Kattintson a Tábla létrehozása vagy módosítása elemre.
- Kattintson a fájlböngésző gombra, vagy húzza a fájlokat közvetlenül a legördülő zónába.
Feljegyzés
Az importált fájlokat a rendszer egy biztonságos belső helyre tölti fel a fiókjában, amely naponta összegyűjtött szemét.
Tábla előnézete, konfigurálása és létrehozása
A számítási erőforrásokhoz való csatlakozás nélkül is feltölthet adatokat az előkészítési területre, de a tábla megtekintéséhez és konfigurálásához ki kell választania egy aktív számítási erőforrást.
Ha konfigurálja a feltöltött tábla beállításait, 50 sornyi adatot tekinthet meg. Kattintson a fájlnév alatti rács- vagy listagombra az adatok megjelenítésének váltásához.
Az Azure Databricks a felügyelt táblák adatfájljait a sémához konfigurált helyeken tárolja. Megfelelő engedélyekre van szüksége ahhoz, hogy táblát hozzon létre egy sémában.
Válassza ki azt a sémát, amelyben táblát szeretne létrehozni az alábbi módon:
- (Csak Unity Catalog-kompatibilis munkaterületek esetén) Kiválaszthatja a katalógust vagy a régit
hive_metastore
. - Jelöljön ki egy sémát.
- (Nem kötelező) Szerkessze a tábla nevét.
Feljegyzés
A legördülő menüben kiválaszthatja a Meglévő tábla felülírása vagy az Új tábla létrehozása lehetőséget. A névütközéssel új táblákat létrehozó műveletek hibaüzenetet jelenítenek meg.
A táblázat létrehozása előtt konfigurálhat beállításokat vagy oszlopokat .
A táblázat létrehozásához kattintson a Lap alján található Létrehozás gombra.
Formázási beállítások
A formátumbeállítások a feltöltött fájlformátumtól függenek. A gyakori formátumbeállítások megjelennek a fejlécsávon, míg a kevésbé gyakran használt beállítások a Speciális attribútumok párbeszédpanelen érhetők el.
- CSV esetén a következő lehetőségek érhetők el:
- Az első sor tartalmazza a fejlécet (alapértelmezés szerint engedélyezve): Ez a beállítás azt határozza meg, hogy a CSV/TSV fájl tartalmaz-e fejlécet.
- Oszlopelválasztó: Az elválasztó karakter az oszlopok között. Csak egy karakter engedélyezett, és a fordított perjel nem támogatott. Ez alapértelmezés szerint vesszőt ad a CSV-fájlokhoz.
- Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg
STRING
: . - A sorok több sorra is kiterjednek (alapértelmezés szerint le van tiltva): Azt jelzi, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.
- A séma egyesítése több fájl között: Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és egyesíteni szeretné-e az egyes fájlok sémáját. Ha le van tiltva, a rendszer egy fájl sémáját használja.
- JSON esetén a következő lehetőségek érhetők el:
- Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg
STRING
: . - A sorok több sorra is kiterjednek (alapértelmezés szerint engedélyezve): Azt jelzi, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.
- Megjegyzések engedélyezése (alapértelmezés szerint engedélyezve): A megjegyzések engedélyezettek-e a fájlban.
- Egyszeri idézőjelek engedélyezése (alapértelmezés szerint engedélyezve): Az egyszeri idézőjelek engedélyezése a fájlban.
- Következtetési időbélyeg (alapértelmezés szerint engedélyezve): Azt jelzi, hogy az időbélyeg-sztringeket a következőképpen próbálja-e kikövetkezni
TimestampType
.
- Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg
- JSON esetén a következő lehetőségek érhetők el:
- Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg
STRING
: . - A sorok több sorra is kiterjednek (alapértelmezés szerint le van tiltva): Azt jelzi, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.
- Megjegyzések engedélyezése, hogy a megjegyzések engedélyezve legyenek-e a fájlban.
- Önálló idézőjelek engedélyezése: Az egyes idézőjelek engedélyezése a fájlban.
- Következtetési időbélyeg: Az időbélyeg-sztringeket a következőképpen próbálja-e meg kikövetkezni
TimestampType
.
- Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg
Az adatok előnézete automatikusan frissül a formátumbeállítások szerkesztésekor.
Feljegyzés
Ha több fájlt tölt fel, a következő szabályok érvényesek:
- Az élőfej beállításai az összes fájlra érvényesek. Az adatvesztés elkerülése érdekében győződjön meg arról, hogy a fejlécek folyamatosan hiányoznak vagy jelen vannak az összes feltöltött fájlban.
- A feltöltött fájlok összefűzésével az összes adat sorként van hozzáfűzve a céltáblában. A rekordok fájlfeltöltés során történő összekapcsolása vagy egyesítése nem támogatott.
Oszlopnevek és -típusok
Szerkesztheti az oszlopneveket és -típusokat.
A típusok szerkesztéséhez kattintson a típust tartalmazó ikonra.
Feljegyzés
A beágyazott típusokat
STRUCT
ARRAY
nem szerkesztheti.Az oszlop nevének szerkesztéséhez kattintson az oszlop tetején található beviteli mezőre.
Az oszlopnevek nem támogatják a vesszőket, a fordított perjeleket és a Unicode-karaktereket (például emojikat).
Az oszlop adattípusai alapértelmezés szerint a CSV- és JSON-fájlokra következtetnek. Az összes oszlopot típusként STRING
értelmezheti, ha letiltja a Speciális attribútumok automatikus észlelése oszloptípusokat>.
Feljegyzés
- A sémakövetkeztetés a lehető legjobban képes észlelni az oszloptípusokat. Az oszloptípusok módosítása bizonyos értékek leadásához
NULL
vezethet, ha az érték nem hajtható végre megfelelően a céladattípusra. Az oszlopokra vagyTIMESTAMP
oszlopokra történőDATE
kiosztásBIGINT
nem támogatott. A Databricks azt javasolja, hogy először hozzon létre egy táblát, majd később az SQL-függvények használatával alakítsa át ezeket az oszlopokat. - Ha speciális karakterekkel szeretné támogatni a táblázat oszlopneveit, a tábla létrehozása vagy módosítása fájlfeltöltési oldal használatával az Oszlopleképezést használja.
- Ha megjegyzéseket szeretne fűzni az oszlopokhoz, hozza létre a táblát, és lépjen a Katalóguskezelőbe, ahol megjegyzéseket adhat hozzá.
Támogatott adattípusok
A tábla létrehozása vagy módosítása fájlfeltöltési oldal használatával az alábbi adattípusokat támogatja. Az egyes adattípusokról további információt az SQL-adattípusokban talál.
Adattípus | Leírás |
---|---|
BIGINT |
8 bájtos aláírt egész szám. |
BOOLEAN |
Logikai (true , false ) értékek. |
DATE |
Az év, hónap és nap mezők értékeit tartalmazó értékek, időzóna nélkül. |
DOUBLE |
8 bájtos dupla pontosságú lebegőpontos számok. |
STRING |
Karaktersztringértékek. |
TIMESTAMP |
Az év, hónap, nap, óra, perc és másodperc mezők értékeit tartalmazó értékek a munkamenet helyi időzónájával. |
STRUCT |
Értékek a mezők sorozata által leírt struktúrával. |
ARRAY |
A típussal rendelkező elemek sorozatából álló értékekelementType . |
DECIMAL(P,S) |
Maximális pontosságú P és rögzített skálázású S számok. |
Ismert problémák
A nem önthető típusok( például DATE
"yyyyy" formátumú dátumok) formázása BIGINT
hibákat okozhat.