Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ebben az oktatóanyagban megtudhatja, hogyan elemezheti a tárfiókokban található adatokat.
Eddig olyan forgatókönyveket tárgyaltunk, ahol az adatok a munkaterületen lévő adatbázisokban találhatók. Most bemutatjuk, hogyan használhatja a tárfiókokban lévő fájlokat. Ebben a forgatókönyvben a munkaterület és a tároló elsődleges tárfiókját fogjuk használni, amelyet a munkaterület létrehozásakor megadottunk.
- A tárfiók neve: contosolake
- A tároló neve a tárfiókban: felhasználók
CSV- és Parquet-fájlok létrehozása a tárfiókban
Run the following code in a notebook in a new code cell. Létrehoz egy CSV-fájlt és egy parquet fájlt a tárfiókban.
Tipp
Ez a táblázat a rövid útmutató korábbi szakaszában lett létrehozva, és itt találja a lépéseket.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
A tárfiók adatainak elemzése
Elemezheti a munkaterület alapértelmezett Azure Data Lake Storage (ADLS) Gen2-fiókjában lévő adatokat, vagy csatolhat egy ADLS Gen2- vagy Blob Storage-fiókot a munkaterülethez a "Manage" > "Linked Services" ">" (A következő lépések az elsődleges ADLS Gen2-fiókra vonatkoznak).
A Synapse Studióban nyissa meg a Data Hubot, majd válassza a Csatolt lehetőséget.
Navigáljon az Azure Data Lake Storage Gen2>myworkspace (Elsődleges – contosolake) elemhez.
Válassza ki a felhasználókat (elsődleges). Ekkor megjelenik a NYCTaxi mappa. Belül két, PassengerCountStats_csvformat és PassengerCountStats_parquetformat nevű mappát kell látnia.
Nyissa meg a PassengerCountStats_parquetformat mappát. Inside, there's a parquet file with a name like
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.Kattintson a jobb gombbal a .parquet fájlra, majd válassza az Új jegyzetfüzet lehetőséget, végül pedig válassza a Betöltés a DataFrame-be lehetőséget. A következőhöz hasonló cellával létrejön egy új jegyzetfüzet:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))Csatlakozzon a "Spark" medencéhez, amelynek neve Spark1. Run the cell. If you run into an error related to lack of cores, another session could be using this spark pool. Törölje az összes meglévő munkamenetet, és próbálkozzon újra.
Válassza vissza a felhasználók mappájába. Kattintson ismét a jobb gombbal a .parquet fájlra, majd válassza az Új SQL-szkript>SELECT TOP 100 sorok. A következőhöz hasonló SQL-szkriptet hoz létre:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]A szkriptablakban győződjön meg arról, hogy a Csatlakozás mező a beépített kiszolgáló nélküli SQL-készletre van állítva.
Futtassa a szkriptet.