Zelfstudie: Gegevens analyseren in een opslagaccount

In deze zelfstudie leert u hoe u gegevens kunt analyseren die zich in een opslagaccount bevinden.

Tot nu toe zijn scenario's beschreven waarin gegevens in databases staan die zijn opgenomen in de werkruimte. U leert nu werken met bestanden in opslagaccounts. In dit scenario wordt het primaire opslagaccount van de werkruimte en de container die we hebben opgegeven bij het maken van de werkruimte gebruikt.

De naam van het opslagaccount: contosolake
De naam van de container in het opslagaccount: users

CSV- en Parquet-bestanden maken in uw opslagaccount

Voer de volgende code uit in een notebook in een nieuwe codecel. Er wordt een CSV-bestand en een Parquet-bestand gemaakt in het opslagaccount.

Tip

Deze tabel is eerder in de quickstart gemaakt en u vindt de stappen hier.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Gegevens analyseren in een opslagaccount

U kunt de gegevens in uw werkruimte standaardaccount van Azure Data Lake Storage (ADLS) Gen2 analyseren of u kunt een ADLS Gen2- of Blob Storage-account koppelen aan uw werkruimte via 'Manage' > 'Linked Services' > 'New' (de volgende stappen verwijzen naar het primaire ADLS Gen2-account).

Ga in Synapse Studio naar de hub Gegevens en selecteer vervolgens Gekoppeld.
Ga naar Azure Data Lake Storage Gen2>myworkspace (primair - contosolake).
Selecteer gebruikers (Primary). Je zou de map NYCTaxi zichtbaar moeten zien. Hierin ziet u twee mappen, PassengerCountStats_csvformat en PassengerCountStats_parquetformat.
Open de map PassengerCountStats_parquetformat. Binnen is er een Parquet-bestand met een naam zoals part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

Klik met de rechtermuisknop op .parquet, selecteer Nieuw notitieblok en kies vervolgens Laden naar DataFrame. Er wordt een nieuw notitieblok gemaakt met een cel als volgt:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Koppel deze aan de Spark-pool met de naam Spark1. Voer de cel uit. Als u een fout tegenkomt met betrekking tot een tekort aan kernen, zou een andere sessie deze Spark-pool kunnen gebruiken. Alle bestaande sessies annuleren en het opnieuw proberen.
Selecteer terug naar de gebruikersmap . Klik opnieuw met de rechtermuisknop op het .parquet-bestand en selecteer New SQL script>SELECT TOP 100 rijen. Er wordt een SQL-script als deze gemaakt:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
Controleer in het scriptvenster of het veld Verbinding maken is ingesteld op de ingebouwde serverloze SQL-pool .
Voer het script uit.

Volgende stap

Activiteiten organiseren met pijplijnen

Feedback

Is deze pagina nuttig?

Last updated on 2025-04-01