Adatok előkészítése az Azure Data Lake Storage Gen2-ből
Ez a cikk azt ismerteti, hogyan hozhat létre adatokat egy új Azure Databricks-munkaterületre az Azure Data Lake Storage Gen2-ből. Megtudhatja, hogyan érheti el biztonságosan a forrásadatokat egy olyan felhőalapú objektumtárolóban, amely egy Unity Catalog-kötetnek (ajánlott) vagy egy unity katalógus külső helyének felel meg. Ezután megtanulhatja, hogyan töltheti be az adatokat növekményesen egy Unity Catalog által felügyelt táblába az Automatikus betöltővel a Delta Live Tables használatával.
Feljegyzés
Ha a Databricks SQL-ben szeretne adatokat előkészíteni a jegyzetfüzet helyett, olvassa el az Adatok betöltése streamtáblákkal a Databricks SQL-ben című témakört.
Mielőtt elkezdené
Ha Ön nem rendszergazda, ez a cikk feltételezi, hogy egy rendszergazda a következőket adta Önnek:
Hozzáférés azure Databricks-munkaterülethez a Unity Catalog engedélyezésével. További információ: Unity Catalog beállítása és kezelése.
A
READ FILES
Unity Catalog külső kötetére vagy a Unity Katalógus külső helyére vonatkozó engedély, amely megfelel a forrásadatokat tartalmazó felhőtárhelynek. További információ: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.A forrásadatok elérési útja.
Példa kötetútvonalra:
/Volumes/<catalog>/<schema>/<volume>/<path>/<folder>
Példa külső hely elérési útjára:
abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
Azon
USE SCHEMA
séma jogosultságai ésCREATE TABLE
jogosultságai, amelybe adatokat szeretne betölteni.Fürtlétrehozási engedély vagy hozzáférés egy olyan fürtszabályzathoz , amely egy Delta Live Tables-folyamatfürtöt határoz meg (
cluster_type
a mező értéke:dlt
).Ha a forrásadatok elérési útja egy kötet elérési útja, a fürtnek a Databricks Runtime 13.3 LTS vagy újabb verzióját kell futtatnia.
Fontos
Ha kérdése van ezekkel az előfeltételekkel kapcsolatban, forduljon a fiókadminisztrátorhoz.
1. lépés: Fürt létrehozása
Fürt létrehozásához tegye a következőket:
- Jelentkezzen be az Azure Databricks-munkaterületre.
- Az oldalsávon kattintson az Új>fürt elemre.
- A fürtök felhasználói felületén adjon meg egy egyedi nevet a fürtnek.
- Ha a forrásadatok elérési útja egy kötet elérési útja, a Databricks Runtime futtatókörnyezeti verziójához válassza a 13.2-es vagy újabb verziót.
- Kattintson a Fürt létrehozása parancsra.
2. lépés: Adatfeltáró jegyzetfüzet létrehozása
Ez a szakasz azt ismerteti, hogyan hozhat létre adatfeltáró jegyzetfüzetet, hogy megismerhesse az adatokat az adatfolyam létrehozása előtt.
Az oldalsávon kattintson az +Új>jegyzetfüzet gombra.
A jegyzetfüzet automatikusan az utolsó használt fürthöz lesz csatolva (ebben az esetben az 1. lépésben létrehozott fürt: Fürt létrehozása).
Adja meg a jegyzetfüzet nevét.
Kattintson a nyelv gombra, majd válassza ki
Python
vagySQL
a legördülő menüből.Python
alapértelmezés szerint ki van jelölve.Ha meg szeretné erősíteni a forrásadatokhoz való adathozzáférést az ADLS Gen2-ben, illessze be a következő kódot egy jegyzetfüzetcellába, majd kattintson a Cella futtatása parancsra.
SQL
LIST '<path-to-source-data>'
Python
%fs ls '<path-to-source-data>'
Cserélje le
<path-to-source-data>
az adatokat tartalmazó könyvtár elérési útjára.Ez megjeleníti az adathalmazt tartalmazó könyvtár tartalmát.
Ha meg szeretné tekinteni a rekordok mintáját az egyes rekordok tartalmának és formátumának jobb megértéséhez, illessze be a következőt egy jegyzetfüzetcellába, majd kattintson a Cella futtatása parancsra.
SQL
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
Python
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
Cserélje az alábbi értékeket:
<file-format>
: Támogatott fájlformátum. Lásd: Fájlformátum beállításai.<path to source data>
: Az adatokat tartalmazó könyvtárban lévő fájl elérési útja.
Ekkor megjelenik a megadott fájl első tíz rekordja.
3. lépés: Nyers adatok betöltése
Nyers adatok betöltéséhez tegye a következőket:
Az oldalsávon kattintson az Új>jegyzetfüzet elemre.
A jegyzetfüzet automatikusan az utolsó használt fürthöz lesz csatolva (ebben az esetben a cikkben korábban létrehozott fürthöz).
Adja meg a jegyzetfüzet nevét.
Kattintson a nyelv gombra, majd válassza ki
Python
vagySQL
a legördülő menüből.Python
alapértelmezés szerint ki van jelölve.Illessze be a következő kódot egy jegyzetfüzetcellába:
SQL
CREATE OR REFRESH STREAMING TABLE <table-name> AS SELECT * FROM STREAM read_files( '<path-to-source-data>', format => '<file-format>' )
Python
@dlt.table(table_properties={'quality': 'bronze'}) def <table-name>(): return ( spark.readStream.format('cloudFiles') .option('cloudFiles.format', '<file-format>') .load(f'{<path-to-source-data>}') )
Cserélje az alábbi értékeket:
<table-name>
: A betöltött rekordokat tartalmazó tábla neve.<path-to-source-data>
: A forrásadatok elérési útja.<file-format>
: Támogatott fájlformátum. Lásd: Fájlformátum beállításai.
Feljegyzés
A Delta Live Tables nem úgy van kialakítva, hogy interaktívan fusson a jegyzetfüzetcellákban. Ha egy jegyzetfüzetben Delta Live Tables szintaxist tartalmazó cellát futtat, az azt jelzi, hogy a lekérdezés szintaktikailag érvényes-e, de nem futtat lekérdezési logikát. Az alábbi lépés bemutatja, hogyan hozhat létre folyamatot az imént létrehozott betöltési jegyzetfüzetből.
4. lépés: Folyamat létrehozása és közzététele
Egy folyamat létrehozásához és a Unity Catalogban való közzétételéhez tegye a következőket:
- Az oldalsávon kattintson a Munkafolyamatok elemre, kattintson a Delta Live Tables fülre, majd a Folyamat létrehozása parancsra.
- Adja meg a folyamat nevét.
- Folyamat mód esetén válassza az Aktiválva lehetőséget.
- Forráskód esetén válassza ki a folyamat forráskódját tartalmazó jegyzetfüzetet.
- Célként válassza a Unity-katalógust.
- Annak érdekében, hogy a táblát a Unity Catalog felügyelje, és a szülőséma hozzáféréssel rendelkező felhasználók lekérdezhessék azt, válasszon ki egy katalógust és egy célsémát a legördülő listákból.
- Ha nem rendelkezik fürtlétrehozási engedéllyel, válasszon ki egy olyan fürtszabályzatot , amely támogatja a Delta Live Tableset a legördülő listából.
- A Speciális beállításnál állítsa a csatornát előzetes verzióra.
- Fogadja el az összes többi alapértelmezett értéket, és kattintson a Létrehozás gombra.
5. lépés: A folyamat ütemezése
A folyamat ütemezéséhez tegye a következőket:
- Az oldalsávon kattintson a Delta Live Tables elemre.
- Kattintson az ütemezni kívánt folyamat nevére.
- Kattintson az Ütemezés ütemezés>hozzáadása parancsra.
- Feladatnévként adja meg a feladat nevét.
- Állítsa be az ütemezést ütemezettre.
- Adja meg az időszakot, a kezdési időt és az időzónát.
- Konfiguráljon egy vagy több e-mail-címet, hogy riasztásokat kapjon a folyamat indításáról, sikerességéről vagy sikertelenségéről.
- Kattintson a Létrehozás gombra.
Következő lépések
- Hozzáférést biztosíthat a felhasználóknak az új táblához. További információ: Unity Catalog-jogosultságok és biztonságos objektumok.
- Az új táblához hozzáféréssel rendelkező felhasználók most már lekérdezhetik a táblát egy jegyzetfüzetben , vagy használhatják a Databricks SQL-szerkesztőt.