Analýza dat v účtu úložiště
V tomto kurzu se naučíte analyzovat data umístěná v účtu úložiště.
Přehled
Zatím jsme se zabývali scénáři, kdy se data nacházejí v databázích v pracovním prostoru. Teď vám ukážeme, jak pracovat se soubory v účtech úložiště. V tomto scénáři použijeme primární účet úložiště pracovního prostoru a kontejneru, který jsme zadali při vytváření pracovního prostoru.
- Název účtu úložiště: contosolake
- Název kontejneru v účtu úložiště: users
Vytvoření souborů CSV a Parquet v účtu úložiště
V poznámkovém bloku v nové buňce kódu spusťte následující kód. Vytvoří soubor CSV a soubor parquet v účtu úložiště.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Analýza dat v účtu úložiště
Data můžete analyzovat ve výchozím účtu ADLS Gen2 vašeho pracovního prostoru nebo můžete propojit účet ADLS Gen2 nebo Blob Storage s pracovním prostorem prostřednictvím možnosti Spravovat>propojené služby> (následující postup bude odkazovat na primární účet ADLS Gen2).
V Synapse Studio přejděte do centra Data a pak vyberte Propojeno.
Přejděte do Azure Data Lake Storage Gen2>myworkspace (primární – contosolake).
Vyberte uživatele (primární). Měla by se zobrazit složka NYCTaxi . Uvnitř by se měly zobrazit dvě složky s názvem PassengerCountStats_csvformat a PassengerCountStats_parquetformat.
Otevřete složku PassengerCountStats_parquetformat . Uvnitř uvidíte soubor parquet s názvem, jako je
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Klikněte pravým tlačítkem na .parquet, pak vyberte Nový poznámkový blok a pak vyberte Načíst do datového rámce. Vytvoří se nový poznámkový blok s buňkou, jako je tato:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Připojte se k fondu Sparku s názvem Spark1. Spusťte buňku. Pokud narazíte na chybu související s nedostatkem jader, může tento fond Sparku používat jiná relace. Zrušte všechny existující relace a zkuste to znovu.
Vyberte zpět do složky users . Znovu klikněte pravým tlačítkem na soubor .parquet a pak vyberte Nový skript> SQLSELECT TOP 100 rows (Vybrat prvních 100 řádků). Vytvoří skript SQL podobný tomuto:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
V okně skriptu se ujistěte, že je pole Připojit k nastavené na předdefinovaný bezserverový fond SQL.
Spusťte skript.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro