Kılavuz: Bir depolama hesabındaki verileri analiz etme

2025-01-31

Bu öğreticide, depolama hesabında bulunan verileri analiz etmeyi öğreneceksiniz.

Şu ana kadar verilerin çalışma alanında bulunan veritabanlarında bulunduğu senaryoları ele aldık. Şimdi depolama hesaplarındaki dosyalarla nasıl çalışabileceğinizi göstereceğiz. Bu senaryoda, çalışma alanını oluştururken belirttiğimiz çalışma alanının ve kapsayıcının birincil depolama hesabını kullanacağız.

Depolama hesabının adı: contosolake
Depolama hesabındaki kapsayıcının adı: kullanıcılar

Depolama hesabınızda CSV ve Parquet dosyaları oluşturma

Aşağıdaki kodu not defterinde yeni bir kod hücresinde çalıştırın. Depolama hesabında bir CSV dosyası ve bir parquet dosyası oluşturur.

İpucu

Bu tablo hızlı başlangıçta daha önce oluşturulmuştur ve adımları burada bulabilirsiniz.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Depolama hesabındaki verileri analiz etme

Çalışma alanınızın varsayılan Azure Data Lake Storage (ADLS) 2. Nesil hesabındaki verileri analiz edebilir veya "Yönet" "Bağlı Hizmetler>Yeni" > aracılığıyla bir ADLS 2. Nesil veya Blob depolama hesabını çalışma alanınıza bağlayabilirsiniz (sonraki adımlar birincil ADLS 2. Nesil hesabına başvurur).

Synapse Studio'da Veri hub'ına gidin ve Bağlı'yı seçin.
Azure Data Lake Storage 2. Nesil>myworkspace (Birincil - contosolake) bölümüne gidin.
Kullanıcıları (Birincil) seçin. NYCTaxi klasörünü görmeniz gerekir. İçinde PassengerCountStats_csvformat ve PassengerCountStats_parquetformat adlı iki klasör görmeniz gerekir.
PassengerCountStats_parquetformat klasörünü açın. İçeride, adı part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet gibi olan bir parquet dosyası vardır.

.parquet öğesine sağ tıklayın, Yeni not defteri'ni ve ardından DataFrame'e Yükle'yi seçin. Aşağıdaki gibi bir hücreyle yeni bir not defteri oluşturulur:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Spark1 adlı Spark havuzuna bağlanın. Hücreyi çalıştırın. Çekirdek eksikliğiyle ilgili bir hatayla karşılaşırsanız, bu Spark havuzunu başka bir oturum kullanıyor olabilir. Tüm mevcut oturumları iptal edin ve yeniden deneyin.
Kullanıcılar klasörüne geri dön'e tıklayın. .parquet dosyasına tekrar sağ tıklayın ve ardından Yeni SQL betiği>SELECT TOP 100 satır'ı seçin. Aşağıdaki gibi bir SQL betiği oluşturur:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
Betik penceresinde Bağlan alanının Yerleşik sunucusuz SQL havuzuna ayarlandığından emin olun.
Komut dosyasını çalıştırın.

Sonraki adım

İşlem hatları ile etkinlikleri düzenleme

Aracılığıyla paylaş

Kılavuz: Bir depolama hesabındaki verileri analiz etme

Depolama hesabınızda CSV ve Parquet dosyaları oluşturma

Depolama hesabındaki verileri analiz etme

Sonraki adım

Geri Bildirim

Ek kaynaklar