Megosztás a következőn keresztül:


Adatok betöltése a COPY INTO szolgáltatásnévvel

Ez a cikk azt ismerteti, hogyan tölthető be a parancs az COPY INTO Azure-fiókban lévő Azure Data Lake Storage Gen2 (ADLS Gen2) tárolóból egy Databricks SQL-táblába.

A jelen cikk lépései feltételezik, hogy a rendszergazda konfigurálta az SQL-tárolót egy Azure Databricks szolgáltatásnév használatára, hogy hozzáférhessen a forrásfájlokhoz az ADLS Gen2-ben. Ha a rendszergazda konfigurálta a Unity Catalog külső helyét egy tárolási hitelesítő adatokkal, tekintse meg az adatok betöltését a COPY INTO használatával Unity Catalog-kötetekkel vagy külső helyekkel . Ha a rendszergazda ideiglenes hitelesítő adatokat (blob SAS-jogkivonatot) adott meg, kövesse az adatok betöltése a COPY INTO és az ideiglenes hitelesítő adatok használatával című témakörben leírt lépéseket.

A Databricks a COPY INTO parancs használatát javasolja a Databricks SQL növekményes és tömeges adatbetöltéséhez.

Megjegyzés:

COPY INTO Jól működik a több ezer fájlt tartalmazó adatforrásokhoz. A Databricks azt javasolja, hogy több millió fájl betöltéséhez használja az Automatikus betöltőt , amely a Databricks SQL-ben nem támogatott.

Előkészületek

Mielőtt adatokat tölt be az Azure Databricksbe, győződjön meg arról, hogy rendelkezik a következőkkel:

  • Hozzáférés az adatokhoz az ADLS Gen2-ben. A rendszergazdának először végre kell hajtania az adathozzáférés konfigurálása a betöltéshez című szakasz lépéseit, hogy a Databricks SQL Warehouse be tudja olvasni a forrásfájlokat.
  • Egy Databricks SQL-raktár.
  • Az SQL-raktár engedélyeinek kezelése .
  • Az adatok elérési útja egy ADLS Gen2-tárolóban.
  • A Databricks SQL felhasználói felületének ismerete.

1. lépés: Az adatokhoz való hozzáférés megerősítése a felhőbeli tárolóban

Annak ellenőrzéséhez, hogy rendelkezik-e hozzáféréssel a megfelelő adatokhoz a felhőobjektum-tárolóban, tegye a következőket:

  1. Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.

  2. Az SQL-szerkesztő menüsávján válasszon ki egy SQL-raktárat.

  3. Az SQL-szerkesztőben illessze be a következő kódot:

    select * from csv.<path>
    

    Cserélje le <path> a rendszergazdától kapott ADLS Gen2 tároló elérési útjára. Például: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.

  4. Kattintson a Run (Futtatás) parancsra.

2. lépés: Tábla létrehozása

Ez a lépés bemutatja, hogyan hozhat létre táblát az Azure Databricks-munkaterületen a bejövő adatok tárolásához.

  1. Az SQL-szerkesztőben illessze be a következő kódot:

    CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
      tpep_pickup_datetime  TIMESTAMP,
      tpep_dropoff_datetime TIMESTAMP,
      trip_distance DOUBLE,
      fare_amount DOUBLE,
      pickup_zip INT,
      dropoff_zip INT
    );
    
  2. Kattintson a Run (Futtatás) parancsra.

3. lépés: Adatok betöltése a felhőbeli tárolóból a táblába

Ez a lépés azt ismerteti, hogyan tölthet be adatokat egy ADLS Gen2-tárolóból az Azure Databricks-munkaterület táblájába.

  1. Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.

  2. Az SQL-szerkesztő menüsávján válasszon ki egy SQL-raktárt, és győződjön meg arról, hogy az SQL Warehouse fut.

  3. Az SQL-szerkesztőben illessze be a következő kódot. Ebben a kódban cserélje le a következőt:

    • <container> az ADLS Gen2-tároló nevével a tárfiókban.
    • <storage-account> az ADLS Gen2-tárfiók nevével.
    • <folder> az adatokat tartalmazó mappa nevével.
    • <blob-sas-token>a rendszergazdától kapott Blob SAS-jogkivonat értékével.
    COPY INTO <catalog-name>.<schema-name>.<table-name>
    FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
    FILEFORMAT = CSV
    FORMAT_OPTIONS (
      'header' = 'true',
      'inferSchema' = 'true'
    );
    
    SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
    

    Megjegyzés:

    FORMAT_OPTIONS különbözik a FILEFORMAT. Ebben az esetben a beállítás arra utasítja az header Azure Databrickset, hogy a CSV-fájl első sorát kezelje fejlécként, a beállítások pedig inferSchema arra utasítják az Azure Databrickset, hogy automatikusan határozza meg a CSV-fájl egyes mezőinek adattípusát.

  4. Kattintson a Run (Futtatás) parancsra.

    Megjegyzés:

    Ha ismét a Futtatás gombra kattint, a rendszer nem tölt be új adatokat a táblába. Ennek az az oka, hogy a parancs csak azokat COPY INTO dolgozza fel, amelyeket új adatoknak tekint.

A fölöslegessé vált elemek eltávolítása

A munkaterületen lévő társított erőforrásokat törölheti, ha már nem szeretné megtartani őket.

A táblák törlése

  1. Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.

  2. Válasszon ki egy SQL-raktárat, és győződjön meg arról, hogy az SQL Warehouse fut.

  3. Illessze be a következő kódot:

    DROP TABLE <catalog-name>.<schema-name>.<table-name>;
    
  4. Kattintson a Run (Futtatás) parancsra.

  5. Mutasson a lekérdezés fülére, majd kattintson az X ikonra.

A lekérdezések törlése az SQL-szerkesztőben

  1. Az oldalsávon kattintson az SQL-szerkesztőre.
  2. Az SQL-szerkesztő menüsávján vigye az egérmutatót az oktatóanyaghoz létrehozott lekérdezések fülére, majd kattintson az X ikonra.

További erőforrások