Adatok előkészítése az Azure Data Lake Storage Gen2-ből

Ez a cikk azt ismerteti, hogyan hozhat létre adatokat egy új Azure Databricks-munkaterületre az Azure Data Lake Storage Gen2-ből. Megtudhatja, hogyan érheti el biztonságosan a forrásadatokat egy olyan felhőalapú objektumtárolóban, amely egy Unity Catalog-kötetnek (ajánlott) vagy egy unity katalógus külső helyének felel meg. Ezután megtanulhatja, hogyan töltheti be az adatokat növekményesen egy Unity Catalog által felügyelt táblába az Automatikus betöltővel a Delta Live Tables használatával.

Feljegyzés

Ha a Databricks SQL-ben szeretne adatokat előkészíteni a jegyzetfüzet helyett, olvassa el az Adatok betöltése streamtáblákkal a Databricks SQL-ben című témakört.

Mielőtt elkezdené

Ha Ön nem rendszergazda, ez a cikk feltételezi, hogy egy rendszergazda a következőket adta Önnek:

  • Hozzáférés azure Databricks-munkaterülethez a Unity Catalog engedélyezésével. További információ: Unity Catalog beállítása és kezelése.

  • A READ FILES Unity Catalog külső kötetére vagy a Unity Katalógus külső helyére vonatkozó engedély, amely megfelel a forrásadatokat tartalmazó felhőtárhelynek. További információ: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.

  • A forrásadatok elérési útja.

    Példa kötetútvonalra: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

    Példa külső hely elérési útjára: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>

  • Azon USE SCHEMA séma jogosultságai és CREATE TABLE jogosultságai, amelybe adatokat szeretne betölteni.

  • Fürtlétrehozási engedély vagy hozzáférés egy olyan fürtszabályzathoz , amely egy Delta Live Tables-folyamatfürtöt határoz meg (cluster_type a mező értéke: dlt).

    Ha a forrásadatok elérési útja egy kötet elérési útja, a fürtnek a Databricks Runtime 13.3 LTS vagy újabb verzióját kell futtatnia.

Fontos

Ha kérdése van ezekkel az előfeltételekkel kapcsolatban, forduljon a fiókadminisztrátorhoz.

1. lépés: Fürt létrehozása

Fürt létrehozásához tegye a következőket:

  1. Jelentkezzen be az Azure Databricks-munkaterületre.
  2. Az oldalsávon kattintson az Új>fürt elemre.
  3. A fürtök felhasználói felületén adjon meg egy egyedi nevet a fürtnek.
  4. Ha a forrásadatok elérési útja egy kötet elérési útja, a Databricks Runtime futtatókörnyezeti verziójához válassza a 13.2-es vagy újabb verziót.
  5. Kattintson a Fürt létrehozása parancsra.

2. lépés: Adatfeltáró jegyzetfüzet létrehozása

Ez a szakasz azt ismerteti, hogyan hozhat létre adatfeltáró jegyzetfüzetet, hogy megismerhesse az adatokat az adatfolyam létrehozása előtt.

  1. Az oldalsávon kattintson az +Új>jegyzetfüzet gombra.

    A jegyzetfüzet automatikusan az utolsó használt fürthöz lesz csatolva (ebben az esetben az 1. lépésben létrehozott fürt: Fürt létrehozása).

  2. Adja meg a jegyzetfüzet nevét.

  3. Kattintson a nyelv gombra, majd válassza ki Python vagy SQL a legördülő menüből. Python alapértelmezés szerint ki van jelölve.

  4. Ha meg szeretné erősíteni a forrásadatokhoz való adathozzáférést az ADLS Gen2-ben, illessze be a következő kódot egy jegyzetfüzetcellába, majd kattintson a Cella futtatása parancsraFuttatási menü.

    SQL

    LIST '<path-to-source-data>'
    

    Python

    %fs ls '<path-to-source-data>'
    

    Cserélje le <path-to-source-data> az adatokat tartalmazó könyvtár elérési útjára.

    Ez megjeleníti az adathalmazt tartalmazó könyvtár tartalmát.

  5. Ha meg szeretné tekinteni a rekordok mintáját az egyes rekordok tartalmának és formátumának jobb megértéséhez, illessze be a következőt egy jegyzetfüzetcellába, majd kattintson a Cella futtatása parancsraFuttatási menü.

    SQL

    SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
    

    Python

    spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
    

    Cserélje le a következő értékeket:

    • <file-format>: Támogatott fájlformátum. Lásd: Fájlformátum beállításai.
    • <path to source data>: Az adatokat tartalmazó könyvtárban lévő fájl elérési útja.

    Ekkor megjelenik a megadott fájl első tíz rekordja.

3. lépés: Nyers adatok betöltése

Nyers adatok betöltéséhez tegye a következőket:

  1. Az oldalsávon kattintson az Új>jegyzetfüzet elemre.

    A jegyzetfüzet automatikusan az utolsó használt fürthöz lesz csatolva (ebben az esetben a cikkben korábban létrehozott fürthöz).

  2. Adja meg a jegyzetfüzet nevét.

  3. Kattintson a nyelv gombra, majd válassza ki Python vagy SQL a legördülő menüből. Python alapértelmezés szerint ki van jelölve.

  4. Illessze be a következő kódot egy jegyzetfüzetcellába:

    SQL

    CREATE OR REFRESH STREAMING TABLE
      <table-name>
    AS SELECT
      *
    FROM
      STREAM read_files(
        '<path-to-source-data>',
        format => '<file-format>'
      )
    

    Python

    @dlt.table(table_properties={'quality': 'bronze'})
    def <table-name>():
      return (
         spark.readStream.format('cloudFiles')
         .option('cloudFiles.format', '<file-format>')
         .load(f'{<path-to-source-data>}')
     )
    

    Cserélje le a következő értékeket:

    • <table-name>: A betöltött rekordokat tartalmazó tábla neve.
    • <path-to-source-data>: A forrásadatok elérési útja.
    • <file-format>: Támogatott fájlformátum. Lásd: Fájlformátum beállításai.

Feljegyzés

A Delta Live Tables nem úgy van kialakítva, hogy interaktívan fusson a jegyzetfüzetcellákban. Ha egy jegyzetfüzetben Delta Live Tables szintaxist tartalmazó cellát futtat, az azt jelzi, hogy a lekérdezés szintaktikailag érvényes-e, de nem futtat lekérdezési logikát. Az alábbi lépés bemutatja, hogyan hozhat létre folyamatot az imént létrehozott betöltési jegyzetfüzetből.

4. lépés: Folyamat létrehozása és közzététele

Egy folyamat létrehozásához és a Unity Catalogban való közzétételéhez tegye a következőket:

  1. Az oldalsávon kattintson a Munkafolyamatok elemre, kattintson a Delta Live Tables fülre, majd a Folyamat létrehozása parancsra.
  2. Adja meg a folyamat nevét.
  3. Folyamat mód esetén válassza az Aktiválva lehetőséget.
  4. Forráskód esetén válassza ki a folyamat forráskódját tartalmazó jegyzetfüzetet.
  5. Célként válassza a Unity-katalógust.
  6. Annak érdekében, hogy a táblát a Unity Catalog felügyelje, és a szülőséma hozzáféréssel rendelkező felhasználók lekérdezhessék azt, válasszon ki egy katalógust és egy célsémát a legördülő listákból.
  7. Ha nem rendelkezik fürtlétrehozási engedéllyel, válasszon ki egy olyan fürtszabályzatot , amely támogatja a Delta Live Tableset a legördülő listából.
  8. A Speciális beállításnál állítsa a csatornát előzetes verzióra.
  9. Fogadja el az összes többi alapértelmezett értéket, és kattintson a Létrehozás gombra.

5. lépés: A folyamat ütemezése

A folyamat ütemezéséhez tegye a következőket:

  1. Az oldalsávon kattintson a Delta Live Tables elemre.
  2. Kattintson az ütemezni kívánt folyamat nevére.
  3. Kattintson az Ütemezés ütemezés>hozzáadása parancsra.
  4. Feladatnévként adja meg a feladat nevét.
  5. Állítsa be az ütemezést ütemezettre.
  6. Adja meg az időszakot, a kezdési időt és az időzónát.
  7. Konfiguráljon egy vagy több e-mail-címet, hogy riasztásokat kapjon a folyamat indításáról, sikerességéről vagy sikertelenségéről.
  8. Kattintson a Létrehozás gombra.

Következő lépések