Gegevens analyseren in een opslagaccount

In deze zelfstudie leert u hoe u gegevens kunt analyseren die zich in een opslagaccount bevinden.

Overzicht

Tot nu toe zijn scenario's beschreven waarin gegevens in databases staan die zijn opgenomen in de werkruimte. U leert nu werken met bestanden in opslagaccounts. In dit scenario wordt het primaire opslagaccount van de werkruimte en de container die we hebben opgegeven bij het maken van de werkruimte gebruikt.

  • De naam van het opslagaccount: contosolake
  • De naam van de container in het opslagaccount: users

CSV- en Parquet-bestanden maken in uw opslagaccount

Voer de volgende code uit in een notebook in een nieuwe codecel. Er wordt een CSV-bestand en een Parquet-bestand gemaakt in het opslagaccount.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Gegevens analyseren in een opslagaccount

U kunt de gegevens in uw werkruimte standaard ADLS Gen2-account analyseren of u kunt een ADLS Gen2- of Blob-opslagaccount koppelen aan uw werkruimte via 'Beheren' > 'Gekoppelde services' > 'Nieuw' (de onderstaande stappen verwijzen naar het primaire ADLS Gen2-account).

  1. Ga in Synapse Studio naar de hub Gegevens en selecteer vervolgens Gekoppeld.

  2. Ga naar Azure Data Lake Storage Gen2>myworkspace (Primair - contosolake).

  3. Selecteer users (Primary) . De map NYCTaxi moet worden weergegeven. Hierin ziet u twee mappen, PassengerCountStats_csvformat en PassengerCountStats_parquetformat.

  4. Open de map PassengerCountStats_parquetformat. U ziet nu een Parquet-bestand met een naam als part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. Klik met de rechtermuisknop op .parquet, selecteer Nieuw notebook en selecteer vervolgens Laden in DataFrame. Er wordt een nieuw notitieblok gemaakt met een cel zoals deze:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Koppel aan de Spark-pool met de naam Spark1. Voer de cel uit. Als er een fout optreedt met betrekking tot het ontbreken van kernen, kan deze Spark-pool worden gebruikt door een andere sessie. Annuleer alle bestaande sessies en probeer het opnieuw.

  7. Selecteer terug naar de map gebruikers . Klik opnieuw met de rechtermuisknop op het .parquet-bestand en selecteer nieuw SQL-script>SELECTEER TOP 100 rijen. Er wordt een SQL-script als deze gemaakt:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    Controleer in het scriptvenster of het veld Verbinding maken met is ingesteld op de ingebouwde serverloze SQL-pool .

  8. Voer het script uit.

Volgende stappen