Adatok betöltése a COPY INTO szolgáltatásnévvel
Ez a cikk azt ismerteti, hogyan tölthető be a parancs az COPY INTO
Azure-fiókban lévő Azure Data Lake Storage Gen2 (ADLS Gen2) tárolóból egy Databricks SQL-táblába.
A jelen cikk lépései feltételezik, hogy a rendszergazda konfigurálta az SQL-tárolót egy Azure Databricks szolgáltatásnév használatára, hogy hozzáférhessen a forrásfájlokhoz az ADLS Gen2-ben. Ha a rendszergazda konfigurálta a Unity Catalog külső helyét egy tárolási hitelesítő adatokkal, tekintse meg az adatok betöltését a COPY INTO használatával Unity Catalog-kötetekkel vagy külső helyekkel . Ha a rendszergazda ideiglenes hitelesítő adatokat (blob SAS-jogkivonatot) adott meg, kövesse az adatok betöltése a COPY INTO és az ideiglenes hitelesítő adatok használatával című témakörben leírt lépéseket.
A Databricks a COPY INTO parancs használatát javasolja a Databricks SQL növekményes és tömeges adatbetöltéséhez.
Feljegyzés
COPY INTO
Jól működik a több ezer fájlt tartalmazó adatforrásokhoz. A Databricks azt javasolja, hogy több millió fájl betöltéséhez használja az Automatikus betöltőt , amely a Databricks SQL-ben nem támogatott.
Mielőtt elkezdené
Mielőtt adatokat tölt be az Azure Databricksbe, győződjön meg arról, hogy rendelkezik a következőkkel:
- Hozzáférés az adatokhoz az ADLS Gen2-ben. A rendszergazdának először végre kell hajtania az adathozzáférés konfigurálása a betöltéshez című szakasz lépéseit, hogy a Databricks SQL Warehouse be tudja olvasni a forrásfájlokat.
- Egy Databricks SQL-raktár.
- Az SQL-raktár engedélyeinek kezelése .
- Az adatok elérési útja egy ADLS Gen2-tárolóban.
- A Databricks SQL felhasználói felületének ismerete.
1. lépés: Az adatokhoz való hozzáférés megerősítése a felhőbeli tárolóban
Annak ellenőrzéséhez, hogy rendelkezik-e hozzáféréssel a megfelelő adatokhoz a felhőobjektum-tárolóban, tegye a következőket:
Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.
Az SQL-szerkesztő menüsávján válasszon ki egy SQL-raktárat.
Az SQL-szerkesztőben illessze be a következő kódot:
select * from csv.<path>
Cserélje le
<path>
a rendszergazdától kapott ADLS Gen2 tároló elérési útjára. Például:abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
.Kattintson a Futtatás elemre.
2. lépés: Tábla létrehozása
Ez a lépés bemutatja, hogyan hozhat létre táblát az Azure Databricks-munkaterületen a bejövő adatok tárolásához.
Az SQL-szerkesztőben illessze be a következő kódot:
CREATE TABLE <catalog_name>.<schema_name>.<table_name> ( tpep_pickup_datetime TIMESTAMP, tpep_dropoff_datetime TIMESTAMP, trip_distance DOUBLE, fare_amount DOUBLE, pickup_zip INT, dropoff_zip INT );
Kattintson a Futtatás elemre.
3. lépés: Adatok betöltése a felhőbeli tárolóból a táblába
Ez a lépés azt ismerteti, hogyan tölthet be adatokat egy ADLS Gen2-tárolóból az Azure Databricks-munkaterület táblájába.
Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.
Az SQL-szerkesztő menüsávján válasszon ki egy SQL-raktárt, és győződjön meg arról, hogy az SQL Warehouse fut.
Az SQL-szerkesztőben illessze be a következő kódot. Ebben a kódban cserélje le a következőt:
<container>
az ADLS Gen2-tároló nevével a tárfiókban.<storage-account>
az ADLS Gen2-tárfiók nevével.<folder>
az adatokat tartalmazó mappa nevével.<blob-sas-token>
a rendszergazdától kapott Blob SAS-jogkivonat értékével.
COPY INTO <catalog-name>.<schema-name>.<table-name> FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>' FILEFORMAT = CSV FORMAT_OPTIONS ( 'header' = 'true', 'inferSchema' = 'true' ); SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
Feljegyzés
FORMAT_OPTIONS
különbözik aFILEFORMAT
. Ebben az esetben a beállítás arra utasítja azheader
Azure Databrickset, hogy a CSV-fájl első sorát kezelje fejlécként, a beállítások pediginferSchema
arra utasítják az Azure Databrickset, hogy automatikusan határozza meg a CSV-fájl egyes mezőinek adattípusát.Kattintson a Futtatás elemre.
Feljegyzés
Ha ismét a Futtatás gombra kattint, a rendszer nem tölt be új adatokat a táblába. Ennek az az oka, hogy a parancs csak azokat
COPY INTO
dolgozza fel, amelyeket új adatoknak tekint.
A fölöslegessé vált elemek eltávolítása
A munkaterületen lévő társított erőforrásokat törölheti, ha már nem szeretné megtartani őket.
A táblák törlése
Az oldalsávon kattintson a Lekérdezés létrehozása elemre>.
Válasszon ki egy SQL-raktárat, és győződjön meg arról, hogy az SQL Warehouse fut.
Illessze be a következő kódot:
DROP TABLE <catalog-name>.<schema-name>.<table-name>;
Kattintson a Futtatás elemre.
Mutasson a lekérdezés fülére, majd kattintson az X ikonra.
A lekérdezések törlése az SQL-szerkesztőben
- Az oldalsávon kattintson az SQL-szerkesztőre.
- Az SQL-szerkesztő menüsávján vigye az egérmutatót az oktatóanyaghoz létrehozott lekérdezések fülére, majd kattintson az X ikonra.
További erőforrások
- A COPY INTO referenciacikk