Analysera data i ett lagringskonto
I den här självstudien lär du dig att analysera data som finns i ett lagringskonto.
Översikt
Hittills har vi gått igenom scenarier där data finns i databaser på arbetsytan. Nu ska vi visa dig hur du arbetar med filer i lagringskonton. I det här scenariot använder vi det primära lagringskontot för arbetsytan och containern som vi angav när vi skapade arbetsytan.
- Namnet på lagringskontot: contosolake
- Namnet på containern i lagringskontot: användare
Skapa CSV- och Parquet-filer i ditt lagringskonto
Kör följande kod i en notebook-fil i en ny kodcell. Den skapar en CSV-fil och en parquet-fil i lagringskontot.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Analysera data i ett lagringskonto
Du kan analysera data på din arbetsytas standard-ADLS Gen2-konto eller länka ett ADLS Gen2- eller Blob Storage-konto till din arbetsyta via "Hantera" > "Länkade tjänster" "Nytt" > (stegen nedan refererar till det primära ADLS Gen2-kontot).
I Synapse Studio går du till datahubben och väljer sedan Länkad.
Gå till Azure Data Lake Storage Gen2>myworkspace (Primary – contosolake).
Välj användare (primär). Du bör se mappen NYCTaxi . I bör du se två mappar med namnet PassengerCountStats_csvformat och PassengerCountStats_parquetformat.
Öppna mappen PassengerCountStats_parquetformat . Inuti visas en parquet-fil med ett namn som
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Högerklicka på .parquet, välj Ny anteckningsbok och välj sedan Läs in till DataFrame. En ny notebook-fil skapas med en cell som den här:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Anslut till Spark-poolen med namnet Spark1. Kör cellen. Om du stöter på ett fel som rör brist på kärnor kan den här Spark-poolen användas av en annan session. Avbryt alla befintliga sessioner och försök igen.
Välj tillbaka till mappen användare . Högerklicka på .parquet-filen igen och välj sedan Nytt SQL-skript>SELECT TOP 100 rows (Välj de 100 översta raderna). Det skapar ett SQL-skript som liknar detta:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
I skriptfönstret kontrollerar du att fältet Anslut till är inställt på den inbyggda serverlösa SQL-poolen .
Kör skriptet.
Nästa steg
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för