Adatok elemzése tárfiókban
Ebben az oktatóanyagban megtudhatja, hogyan elemezheti a tárfiókokban található adatokat.
Áttekintés
Eddig olyan forgatókönyveket tárgyaltunk, ahol az adatok a munkaterület adatbázisaiban találhatók. Most bemutatjuk, hogyan dolgozhat a tárfiókokban lévő fájlokkal. Ebben a forgatókönyvben a munkaterület és a tároló elsődleges tárfiókját fogjuk használni, amelyet a munkaterület létrehozásakor megadottunk.
- A tárfiók neve: contosolake
- A tároló neve a tárfiókban: felhasználók
CSV- és Parquet-fájlok létrehozása a tárfiókban
Futtassa a következő kódot egy jegyzetfüzetben egy új kódcellában. Létrehoz egy CSV-fájlt és egy parquet-fájlt a tárfiókban.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Adatok elemzése tárfiókban
Elemezheti a munkaterület alapértelmezett ADLS Gen2-fiókjában lévő adatokat, vagy csatolhat egy ADLS Gen2- vagy Blob Storage-fiókot a munkaterülethez a "Manage" "Linked Services" "New" > (Új társított szolgáltatások kezelése) > funkcióval (az alábbi lépések az elsődleges ADLS Gen2-fiókra vonatkoznak).
A Synapse Studio nyissa meg az Adatközpontot, majd válassza a Csatolt lehetőséget.
Lépjen Azure Data Lake Storage Gen2>myworkspace (Primary – contosolake) területre.
Válassza ki a felhasználókat (elsődleges). Ekkor megjelenik a NYCTaxi mappa. Belül két , PassengerCountStats_csvformat és PassengerCountStats_parquetformat nevű mappát kell látnia.
Nyissa meg a PassengerCountStats_parquetformat mappát. A fájlon belül megjelenik egy olyan nevű parkettafájl, mint a
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Kattintson a jobb gombbal a .parquet elemre, majd válassza az Új jegyzetfüzet, majd a Betöltés a DataFrame-be parancsot. A következőhöz hasonló cellával jön létre egy új jegyzetfüzet:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Csatolja a Spark1 nevű Spark-készlethez. Futtassa a cellát. Ha a magok hiányával kapcsolatos hibába ütközik, előfordulhat, hogy egy másik munkamenet használja ezt a spark-készletet. Törölje az összes meglévő munkamenetet, és próbálkozzon újra.
Válassza vissza a felhasználók mappába. Kattintson ismét a jobb gombbal a .parquet fájlra, majd válassza az Új SQL-szkript>SELECT TOP 100 sor lehetőséget. A következőhöz hasonló SQL-szkriptet hoz létre:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
A szkriptablakban győződjön meg arról, hogy a Csatlakozás mező a beépített kiszolgáló nélküli SQL-készletre van állítva.
Futtassa a szkriptet.