Adatok betöltése a COPY INTO szolgáltatásnévvel

Cikk
08/14/2024

Ez a cikk azt ismerteti, hogyan tölthető be a parancs az COPY INTO Azure-fiókban lévő Azure Data Lake Storage Gen2 (ADLS Gen2) tárolóból egy Databricks SQL-táblába.

A jelen cikk lépései feltételezik, hogy a rendszergazda konfigurálta az SQL-tárolót egy Azure Databricks szolgáltatásnév használatára, hogy hozzáférhessen a forrásfájlokhoz az ADLS Gen2-ben. Ha a rendszergazda konfigurálta a Unity Catalog külső helyét egy tárolási hitelesítő adatokkal, tekintse meg az adatok betöltését a COPY INTO használatával Unity Catalog-kötetekkel vagy külső helyekkel . Ha a rendszergazda ideiglenes hitelesítő adatokat (blob SAS-jogkivonatot) adott meg, kövesse az adatok betöltése a COPY INTO és az ideiglenes hitelesítő adatok használatával című témakörben leírt lépéseket.

A Databricks a COPY INTO parancs használatát javasolja a Databricks SQL növekményes és tömeges adatbetöltéséhez.

Feljegyzés

COPY INTO Jól működik a több ezer fájlt tartalmazó adatforrásokhoz. A Databricks azt javasolja, hogy több millió fájl betöltéséhez használja az Automatikus betöltőt , amely a Databricks SQL-ben nem támogatott.

Mielőtt elkezdené

Mielőtt adatokat tölt be az Azure Databricksbe, győződjön meg arról, hogy rendelkezik a következőkkel:

Hozzáférés az adatokhoz az ADLS Gen2-ben. A rendszergazdának először végre kell hajtania az adathozzáférés konfigurálása a betöltéshez című szakasz lépéseit, hogy a Databricks SQL Warehouse be tudja olvasni a forrásfájlokat.
Egy Databricks SQL-raktár.
Az SQL-raktár engedélyeinek kezelése .
Az adatok elérési útja egy ADLS Gen2-tárolóban.
A Databricks SQL felhasználói felületének ismerete.

1. lépés: Az adatokhoz való hozzáférés megerősítése a felhőbeli tárolóban

Annak ellenőrzéséhez, hogy rendelkezik-e hozzáféréssel a megfelelő adatokhoz a felhőobjektum-tárolóban, tegye a következőket:

Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.
Az SQL-szerkesztő menüsávján válasszon ki egy SQL-raktárat.
Az SQL-szerkesztőben illessze be a következő kódot:
```
select * from csv.<path>
```
Cserélje le <path> a rendszergazdától kapott ADLS Gen2 tároló elérési útjára. Például: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.
Kattintson a Futtatás elemre.

2. lépés: Tábla létrehozása

Ez a lépés bemutatja, hogyan hozhat létre táblát az Azure Databricks-munkaterületen a bejövő adatok tárolásához.

Az SQL-szerkesztőben illessze be a következő kódot:

CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
  tpep_pickup_datetime  TIMESTAMP,
  tpep_dropoff_datetime TIMESTAMP,
  trip_distance DOUBLE,
  fare_amount DOUBLE,
  pickup_zip INT,
  dropoff_zip INT
);

Kattintson a Futtatás elemre.

3. lépés: Adatok betöltése a felhőbeli tárolóból a táblába

Ez a lépés azt ismerteti, hogyan tölthet be adatokat egy ADLS Gen2-tárolóból az Azure Databricks-munkaterület táblájába.

Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.
Az SQL-szerkesztő menüsávján válasszon ki egy SQL-raktárt, és győződjön meg arról, hogy az SQL Warehouse fut.
Az SQL-szerkesztőben illessze be a következő kódot. Ebben a kódban cserélje le a következőt:
- <container> az ADLS Gen2-tároló nevével a tárfiókban.
- <storage-account> az ADLS Gen2-tárfiók nevével.
- <folder> az adatokat tartalmazó mappa nevével.
- <blob-sas-token>a rendszergazdától kapott Blob SAS-jogkivonat értékével.
```
COPY INTO <catalog-name>.<schema-name>.<table-name>
FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  'header' = 'true',
  'inferSchema' = 'true'
);

SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
```
Feljegyzés

FORMAT_OPTIONS különbözik a FILEFORMAT. Ebben az esetben a beállítás arra utasítja az header Azure Databrickset, hogy a CSV-fájl első sorát kezelje fejlécként, a beállítások pedig inferSchema arra utasítják az Azure Databrickset, hogy automatikusan határozza meg a CSV-fájl egyes mezőinek adattípusát.
Kattintson a Futtatás elemre.

Feljegyzés

Ha ismét a Futtatás gombra kattint, a rendszer nem tölt be új adatokat a táblába. Ennek az az oka, hogy a parancs csak azokat COPY INTO dolgozza fel, amelyeket új adatoknak tekint.

A fölöslegessé vált elemek eltávolítása

A munkaterületen lévő társított erőforrásokat törölheti, ha már nem szeretné megtartani őket.

A táblák törlése

Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.
Válasszon ki egy SQL-raktárat, és győződjön meg arról, hogy az SQL Warehouse fut.

Illessze be a következő kódot:

DROP TABLE <catalog-name>.<schema-name>.<table-name>;

Kattintson a Futtatás elemre.
Mutasson a lekérdezés fülére, majd kattintson az X ikonra.

A lekérdezések törlése az SQL-szerkesztőben

Az oldalsávon kattintson az SQL-szerkesztőre.
Az SQL-szerkesztő menüsávján vigye az egérmutatót az oktatóanyaghoz létrehozott lekérdezések fülére, majd kattintson az X ikonra.

További erőforrások

A COPY INTO referenciacikk

Megosztás a következőn keresztül: