Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu öğreticide, depolama hesabında bulunan verileri analiz etmeyi öğreneceksiniz.
Şu ana kadar verilerin çalışma alanında bulunan veritabanlarında bulunduğu senaryoları ele aldık. Şimdi depolama hesaplarındaki dosyalarla nasıl çalışabileceğinizi göstereceğiz. Bu senaryoda, çalışma alanını oluştururken belirttiğimiz çalışma alanının ve kapsayıcının birincil depolama hesabını kullanacağız.
- Depolama hesabının adı: contosolake
- Depolama hesabındaki kapsayıcının adı: kullanıcılar
Depolama hesabınızda CSV ve Parquet dosyaları oluşturma
Aşağıdaki kodu not defterinde yeni bir kod hücresinde çalıştırın. Depolama hesabında bir CSV dosyası ve bir parquet dosyası oluşturur.
İpucu
Bu tablo hızlı başlangıçta daha önce oluşturulmuştur ve adımları burada bulabilirsiniz.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Depolama hesabındaki verileri analiz etme
Çalışma alanınızın varsayılan Azure Data Lake Storage (ADLS) 2. Nesil hesabındaki verileri analiz edebilir veya "Yönet" "Bağlı Hizmetler>Yeni" > aracılığıyla bir ADLS 2. Nesil veya Blob depolama hesabını çalışma alanınıza bağlayabilirsiniz (sonraki adımlar birincil ADLS 2. Nesil hesabına başvurur).
Synapse Studio'da Veri hub'ına gidin ve Bağlı'yı seçin.
Azure Data Lake Storage 2. Nesil>myworkspace (Birincil - contosolake) bölümüne gidin.
Kullanıcıları (Birincil) seçin. NYCTaxi klasörünü görmeniz gerekir. İçinde PassengerCountStats_csvformat ve PassengerCountStats_parquetformat adlı iki klasör görmeniz gerekir.
PassengerCountStats_parquetformat klasörünü açın. İçeride, adı
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
gibi olan bir parquet dosyası vardır..parquet öğesine sağ tıklayın, Yeni not defteri'ni ve ardından DataFrame'e Yükle'yi seçin. Aşağıdaki gibi bir hücreyle yeni bir not defteri oluşturulur:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Spark1 adlı Spark havuzuna bağlanın. Hücreyi çalıştırın. Çekirdek eksikliğiyle ilgili bir hatayla karşılaşırsanız, bu Spark havuzunu başka bir oturum kullanıyor olabilir. Tüm mevcut oturumları iptal edin ve yeniden deneyin.
Kullanıcılar klasörüne geri dön'e tıklayın. .parquet dosyasına tekrar sağ tıklayın ve ardından Yeni SQL betiği>SELECT TOP 100 satır'ı seçin. Aşağıdaki gibi bir SQL betiği oluşturur:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
Betik penceresinde Bağlan alanının Yerleşik sunucusuz SQL havuzuna ayarlandığından emin olun.
Komut dosyasını çalıştırın.