Aracılığıyla paylaş


Depolama hesabındaki verileri analiz etme

Bu öğreticide, bir depolama hesabında bulunan verileri analiz etmeyi öğreneceksiniz.

Genel Bakış

Şimdiye kadar verilerin çalışma alanı içindeki veritabanlarında bulunduğu senaryoları ele aldık. Şimdi depolama hesaplarındaki dosyalarla nasıl çalışabileceğinizi göstereceğiz. Bu senaryoda, çalışma alanını oluştururken belirttiğimiz çalışma alanının ve kapsayıcının birincil depolama hesabını kullanacağız.

  • Depolama hesabının adı: contosolake
  • Depolama hesabındaki kapsayıcının adı: kullanıcılar

Depolama hesabınızda CSV ve Parquet dosyaları oluşturma

Aşağıdaki kodu not defterinde yeni bir kod hücresinde çalıştırın. Depolama hesabında bir CSV dosyası ve bir parquet dosyası oluşturur.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Depolama hesabındaki verileri analiz etme

Çalışma alanınızın varsayılan ADLS 2. Nesil hesabındaki verileri analiz edebilir veya "Yönet" "Bağlı Hizmetler" "Yeni" >> aracılığıyla bir ADLS 2. Nesil veya Blob depolama hesabını çalışma alanınıza bağlayabilirsiniz (Aşağıdaki adımlar birincil ADLS 2. Nesil hesabına başvuracaktır).

  1. Synapse Studio'da Veri hub'ına gidin ve Bağlı'yı seçin.

  2. Azure Data Lake Storage 2. Nesil>yworkspace (Birincil - contosolake) bölümüne gidin.

  3. Kullanıcıları (Birincil) seçin. NYCTaxi klasörünü görmeniz gerekir. İçinde PassengerCountStats_csvformat ve PassengerCountStats_parquetformat adlı iki klasör görmeniz gerekir.

  4. PassengerCountStats_parquetformat klasörünü açın. İçinde, gibi part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquetbir ada sahip bir parquet dosyası görürsünüz.

  5. .parquet öğesine sağ tıklayın, Yeni not defteri'ni ve ardından DataFrame'e Yükle'yi seçin. Aşağıdaki gibi bir hücreyle yeni bir not defteri oluşturulur:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Spark1 adlı Spark havuzuna ekleyin. Hücreyi çalıştırın. Çekirdek eksikliğiyle ilgili bir hatayla karşılaşırsanız bu Spark havuzu başka bir oturum tarafından kullanılabilir. Tüm mevcut oturumları iptal edin ve yeniden deneyin.

  7. Kullanıcılar klasörüne geri dön'e tıklayın. .parquet dosyasına yeniden sağ tıklayın ve ardından Yeni SQL betiği>SELECT TOP 100 satır'ı seçin. Aşağıdaki gibi bir SQL betiği oluşturur:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    Betik penceresinde Bağlan alanının Yerleşik sunucusuz SQL havuzuna ayarlandığından emin olun.

  8. Betiği çalıştırın.

Sonraki adımlar