Oktatóanyag: Adatok elemzése tárfiókban

Ebben az oktatóanyagban megtudhatja, hogyan elemezheti a tárfiókokban található adatokat.

Eddig olyan forgatókönyveket tárgyaltunk, ahol az adatok a munkaterületen lévő adatbázisokban találhatók. Most bemutatjuk, hogyan használhatja a tárfiókokban lévő fájlokat. Ebben a forgatókönyvben a munkaterület és a tároló elsődleges tárfiókját fogjuk használni, amelyet a munkaterület létrehozásakor megadottunk.

A tárfiók neve: contosolake
A tároló neve a tárfiókban: felhasználók

CSV- és Parquet-fájlok létrehozása a tárfiókban

Run the following code in a notebook in a new code cell. Létrehoz egy CSV-fájlt és egy parquet fájlt a tárfiókban.

Tipp

Ez a táblázat a rövid útmutató korábbi szakaszában lett létrehozva, és itt találja a lépéseket.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

A tárfiók adatainak elemzése

Elemezheti a munkaterület alapértelmezett Azure Data Lake Storage (ADLS) Gen2-fiókjában lévő adatokat, vagy csatolhat egy ADLS Gen2- vagy Blob Storage-fiókot a munkaterülethez a "Manage" > "Linked Services" ">" (A következő lépések az elsődleges ADLS Gen2-fiókra vonatkoznak).

A Synapse Studióban nyissa meg a Data Hubot, majd válassza a Csatolt lehetőséget.
Navigáljon az Azure Data Lake Storage Gen2>myworkspace (Elsődleges – contosolake) elemhez.
Válassza ki a felhasználókat (elsődleges). Ekkor megjelenik a NYCTaxi mappa. Belül két, PassengerCountStats_csvformat és PassengerCountStats_parquetformat nevű mappát kell látnia.
Nyissa meg a PassengerCountStats_parquetformat mappát. Inside, there's a parquet file with a name like part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

Kattintson a jobb gombbal a .parquet fájlra, majd válassza az Új jegyzetfüzet lehetőséget, végül pedig válassza a Betöltés a DataFrame-be lehetőséget. A következőhöz hasonló cellával létrejön egy új jegyzetfüzet:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Csatlakozzon a "Spark" medencéhez, amelynek neve Spark1. Run the cell. If you run into an error related to lack of cores, another session could be using this spark pool. Törölje az összes meglévő munkamenetet, és próbálkozzon újra.
Válassza vissza a felhasználók mappájába. Kattintson ismét a jobb gombbal a .parquet fájlra, majd válassza az Új SQL-szkript>SELECT TOP 100 sorok. A következőhöz hasonló SQL-szkriptet hoz létre:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
A szkriptablakban győződjön meg arról, hogy a Csatlakozás mező a beépített kiszolgáló nélküli SQL-készletre van állítva.
Futtassa a szkriptet.

Következő lépés

Orchestrate activities with pipelines

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2025-04-12