Megosztás a következőn keresztül:


Adatok elemzése tárfiókban

Ebben az oktatóanyagban megtudhatja, hogyan elemezheti a tárfiókokban található adatokat.

Áttekintés

Eddig olyan forgatókönyveket tárgyaltunk, ahol az adatok a munkaterületen lévő adatbázisokban találhatók. Most bemutatjuk, hogyan használhatja a tárfiókokban lévő fájlokat. Ebben a forgatókönyvben a munkaterület és a tároló elsődleges tárfiókját fogjuk használni, amelyet a munkaterület létrehozásakor megadottunk.

  • A tárfiók neve: contosolake
  • A tároló neve a tárfiókban: felhasználók

CSV- és Parquet-fájlok létrehozása a tárfiókban

Futtassa a következő kódot egy jegyzetfüzetben egy új kódcellában. Létrehoz egy CSV-fájlt és egy parquet fájlt a tárfiókban.

Tipp.

Ez a táblázat a rövid útmutató korábbi szakaszában lett létrehozva, és itt találja a lépéseket.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Adatok elemzése tárfiókban

Elemezheti a munkaterület alapértelmezett Azure Data Lake Storage (ADLS) Gen2-fiókjában lévő adatokat, vagy csatolhat egy ADLS Gen2- vagy Blob Storage-fiókot a munkaterülethez a "Manage" > "Linked Services" "New" > (A következő lépések az elsődleges ADLS Gen2-fiókra vonatkoznak).

  1. A Synapse Studióban nyissa meg a Data Hubot, majd válassza a Csatolt lehetőséget.

  2. Nyissa meg az Azure Data Lake Storage Gen2 myworkspace (Elsődleges – contosolake) elemet>.

  3. Válassza ki a felhasználókat (elsődleges). Ekkor megjelenik a NYCTaxi mappa. Belül két, PassengerCountStats_csvformat és PassengerCountStats_parquetformat nevű mappát kell látnia.

  4. Nyissa meg a PassengerCountStats_parquetformat mappát. Belül van egy olyan nevű parquet fájl, mint part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parqueta .

  5. Kattintson a jobb gombbal a .parquet, majd az Új jegyzetfüzet, majd a Betöltés a DataFrame-be parancsra. A következőhöz hasonló cellával létrejön egy új jegyzetfüzet:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Csatolja a Spark1 nevű Spark-készlethez. Futtassa a cellát. Ha a magok hiányával kapcsolatos hibába ütközik, egy másik munkamenet is használhatja ezt a spark-készletet. Törölje az összes meglévő munkamenetet, és próbálkozzon újra.

  7. Válassza vissza a felhasználók mappájába. Kattintson ismét a jobb gombbal a .parquet fájlra, majd válassza az Új SQL-szkript>SELECT TOP 100 sort. A következőhöz hasonló SQL-szkriptet hoz létre:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    A szkriptablakban győződjön meg arról, hogy a Csatlakozás mező a beépített kiszolgáló nélküli SQL-készletre van állítva.

  8. Futtassa a szkriptet.

Következő lépések