Depolama hesabındaki verileri analiz etme
Bu öğreticide, bir depolama hesabında bulunan verileri analiz etmeyi öğreneceksiniz.
Genel Bakış
Şimdiye kadar verilerin çalışma alanı içindeki veritabanlarında bulunduğu senaryoları ele aldık. Şimdi depolama hesaplarındaki dosyalarla nasıl çalışabileceğinizi göstereceğiz. Bu senaryoda, çalışma alanını oluştururken belirttiğimiz çalışma alanının ve kapsayıcının birincil depolama hesabını kullanacağız.
- Depolama hesabının adı: contosolake
- Depolama hesabındaki kapsayıcının adı: kullanıcılar
Depolama hesabınızda CSV ve Parquet dosyaları oluşturma
Aşağıdaki kodu not defterinde yeni bir kod hücresinde çalıştırın. Depolama hesabında bir CSV dosyası ve bir parquet dosyası oluşturur.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Depolama hesabındaki verileri analiz etme
Çalışma alanınızın varsayılan ADLS 2. Nesil hesabındaki verileri analiz edebilir veya "Yönet" "Bağlı Hizmetler" "Yeni" >> aracılığıyla bir ADLS 2. Nesil veya Blob depolama hesabını çalışma alanınıza bağlayabilirsiniz (Aşağıdaki adımlar birincil ADLS 2. Nesil hesabına başvuracaktır).
Synapse Studio'da Veri hub'ına gidin ve Bağlı'yı seçin.
Azure Data Lake Storage 2. Nesil>yworkspace (Birincil - contosolake) bölümüne gidin.
Kullanıcıları (Birincil) seçin. NYCTaxi klasörünü görmeniz gerekir. İçinde PassengerCountStats_csvformat ve PassengerCountStats_parquetformat adlı iki klasör görmeniz gerekir.
PassengerCountStats_parquetformat klasörünü açın. İçinde, gibi
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
bir ada sahip bir parquet dosyası görürsünüz..parquet öğesine sağ tıklayın, Yeni not defteri'ni ve ardından DataFrame'e Yükle'yi seçin. Aşağıdaki gibi bir hücreyle yeni bir not defteri oluşturulur:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Spark1 adlı Spark havuzuna ekleyin. Hücreyi çalıştırın. Çekirdek eksikliğiyle ilgili bir hatayla karşılaşırsanız bu Spark havuzu başka bir oturum tarafından kullanılabilir. Tüm mevcut oturumları iptal edin ve yeniden deneyin.
Kullanıcılar klasörüne geri dön'e tıklayın. .parquet dosyasına yeniden sağ tıklayın ve ardından Yeni SQL betiği>SELECT TOP 100 satır'ı seçin. Aşağıdaki gibi bir SQL betiği oluşturur:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
Betik penceresinde Bağlan alanının Yerleşik sunucusuz SQL havuzuna ayarlandığından emin olun.
Betiği çalıştırın.
Sonraki adımlar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin