Sdílet prostřednictvím


Návod: Analýza dat v účtu úložiště

V tomto kurzu se dozvíte, jak analyzovat data umístěná v účtu úložiště.

Zatím jsme probrali scénáře, ve kterých se data nacházejí v databázích v pracovním prostoru. Teď vám ukážeme, jak pracovat se soubory v účtech úložiště. V tomto scénáři použijeme primární účet úložiště pracovního prostoru a kontejneru, který jsme zadali při vytváření pracovního prostoru.

  • Název účtu úložiště: contosolake
  • Název kontejneru v účtu úložiště: uživatelé

Create CSV and Parquet files in your storage account

V poznámkovém bloku v nové buňce kódu spusťte následující kód. It creates a CSV file and a parquet file in the storage account.

Tip

Tato tabulka byla vytvořena dříve v rychlém startu a tady najdete postup.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analyze data in a storage account

Data v základním účtu Azure Data Lake Storage (ADLS) Gen2 můžete analyzovat ve svém pracovním prostoru nebo můžete propojit účet ADLS Gen2 nebo účet úložiště Blob s pracovním prostorem přes "Spravovat" > "Propojené služby" > "Nový". (Následující kroky se budou týkat primárního účtu ADLS Gen2).

  1. V nástroji Synapse Studio přejděte do datového centra a pak vyberte Propojené.

  2. Přejděte do azure Data Lake Storage Gen2>myworkspace (primární – contosolake).

  3. Vyberte uživatele (primární). Měla by se zobrazit složka NYCTaxi . Uvnitř by se měly zobrazit dvě složky s názvem PassengerCountStats_csvformat a PassengerCountStats_parquetformat.

  4. Otevřete složku PassengerCountStats_parquetformat. Inside, there's a parquet file with a name like part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. Right-click .parquet, then select New notebook, then select Load to DataFrame. Vytvoří se nový poznámkový blok s buňkou, která bude vypadat takto:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Připojte se k fondu Spark s názvem Spark1. Run the cell. If you run into an error related to lack of cores, another session could be using this spark pool. Cancel all the existing sessions and retry.

  7. Vyberte zpátky do složky uživatelé . Znovu klikněte pravým tlačítkem myši na soubor .parquet a potom vyberte Nový skript SQL>SELECT TOP 100 řádků. Vytvoří skript SQL takto:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    V okně skriptu se ujistěte, že pole Připojit k je nastavené na vestavěný bezserverový SQL pool.

  8. Spusťte skript.

Další krok