Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V tomto kurzu se dozvíte, jak analyzovat data umístěná v účtu úložiště.
Zatím jsme probrali scénáře, ve kterých se data nacházejí v databázích v pracovním prostoru. Teď vám ukážeme, jak pracovat se soubory v účtech úložiště. V tomto scénáři použijeme primární účet úložiště pracovního prostoru a kontejneru, který jsme zadali při vytváření pracovního prostoru.
- Název účtu úložiště: contosolake
- Název kontejneru v účtu úložiště: uživatelé
Create CSV and Parquet files in your storage account
V poznámkovém bloku v nové buňce kódu spusťte následující kód. It creates a CSV file and a parquet file in the storage account.
Tip
Tato tabulka byla vytvořena dříve v rychlém startu a tady najdete postup.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Analyze data in a storage account
Data v základním účtu Azure Data Lake Storage (ADLS) Gen2 můžete analyzovat ve svém pracovním prostoru nebo můžete propojit účet ADLS Gen2 nebo účet úložiště Blob s pracovním prostorem přes "Spravovat" > "Propojené služby" > "Nový". (Následující kroky se budou týkat primárního účtu ADLS Gen2).
V nástroji Synapse Studio přejděte do datového centra a pak vyberte Propojené.
Přejděte do azure Data Lake Storage Gen2>myworkspace (primární – contosolake).
Vyberte uživatele (primární). Měla by se zobrazit složka NYCTaxi . Uvnitř by se měly zobrazit dvě složky s názvem PassengerCountStats_csvformat a PassengerCountStats_parquetformat.
Otevřete složku PassengerCountStats_parquetformat. Inside, there's a parquet file with a name like
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Right-click .parquet, then select New notebook, then select Load to DataFrame. Vytvoří se nový poznámkový blok s buňkou, která bude vypadat takto:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Připojte se k fondu Spark s názvem Spark1. Run the cell. If you run into an error related to lack of cores, another session could be using this spark pool. Cancel all the existing sessions and retry.
Vyberte zpátky do složky uživatelé . Znovu klikněte pravým tlačítkem myši na soubor .parquet a potom vyberte Nový skript SQL>SELECT TOP 100 řádků. Vytvoří skript SQL takto:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
V okně skriptu se ujistěte, že pole Připojit k je nastavené na vestavěný bezserverový SQL pool.
Spusťte skript.