Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
ŞUNLAR IÇIN GEÇERLIDIR:
Azure Data Factory
Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Azure Data Factory'yi yeni kullanıyorsanız bkz. Azure Data Factory'ye giriş.
Bu öğreticide, Veri akışı tuvalini kullanarak Azure Data Lake Storage (ADLS) 2. Nesil'de verileri analiz edip dönüştürmenize ve Delta Lake'te depolamanıza olanak sağlayan veri akışları oluşturursunuz.
Önkoşullar
- Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
- Azure depolama hesabı. ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa oluşturma adımları için bkz. Azure depolama hesabı oluşturma .
Bu öğreticide dönüştürdüğümiz dosya MoviesDB.csvburada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyanızı depolama hesabınıza yüklemek için Azure portalı ile blobları karşıya yükleme sayfasına bakın. Örnekler, 'sample-data' adlı bir kapsayıcıya başvuruyor.
Veri fabrikası oluşturma
Bu adımda bir veri fabrikası oluşturacak ve Data Factory UX'yi açarak veri fabrikasında işlem hattı oluşturacaksınız.
Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.
Sol menüde Kaynak> oluşturIntegration>Data Factory'yi seçin
Yeni veri fabrikası sayfası Ad alanına ADFTutorialDataFactory girin.
Veri fabrikasını oluşturmak istediğiniz Azure aboneliğini seçin.
Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:
a. Var olanı kullan'ı seçin ve açılan listeden mevcut bir kaynak grubunu seçin.
b. Yeni oluştur'u seçin ve kaynak grubunun adını girin.
Kaynak grupları hakkında bilgi edinmek için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.
Sürüm altında V2'yi seçin.
Konum'un altında veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve SQL Veritabanı) ve işlem (örneğin, Azure HDInsight) diğer bölgelerde olabilir.
Oluştur'u seçin.
Oluşturma işlemi tamamlandıktan sonra Bildirim merkezi'nde bildirimi görürsünüz. Data factory sayfasına gitmek için Kaynağa Git seçin.
Data Factory Kullanıcı Arabirimini (UI) ayrı bir sekmede başlatmak için
Author & Monitor 'u seçin.
Veri akışı etkinliğiyle işlem hattı oluşturma
Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturursunuz.
Giriş sayfasında Düzenle'yi seçin.
İşlem hattının Genel sekmesinde, işlem hattının Adı için DeltaLake girin.
Etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu genişletin. Veri Akışı etkinliğini panelden işlem hattı kanvasına sürükleyip bırakın.
İşlem hattı tuvalinin üst çubuğunda Veri Akışı hata ayıklama kaydırıcısını etkinleştirin. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz. Hata Ayıklama Modu.
Veri akışı tuvalinde dönüştürme mantığı oluşturma
Bu öğreticide iki veri akışı oluşturacaksınız. İlk veri akışı, filmler CSV dosyasından yeni bir Delta Lake oluşturmak için havuza alınan basit bir kaynaktır. Son olarak, Delta Lake'teki verileri güncelleştirmek için aşağıdaki akış tasarımını oluşturursunuz.
Öğretici hedefleri
- Önkoşullardan MoviesCSV veri kümesi kaynağını kullanın ve bu kaynaktan yeni bir Delta Lake oluşturabilirsiniz.
- 1988 filmlerinin derecelendirmelerini '1' olarak güncelleştirecek mantığı oluşturun.
- 1950'den tüm filmleri silin.
- 1960'tan itibaren filmleri çoğaltarak 2021 için yeni filmler ekleyin.
Boş bir veri akışı tuvalinden başlama
Veri akışı düzenleyicisi penceresinin üst kısmındaki kaynak dönüştürmeyi seçin ve ardından Kaynak ayarlarıpenceresindeki Veri kümesi özelliğinin yanındaki + Yeni'yi seçin:
Görüntülenen Yeni veri kümesipenceresinden Azure Data Lake Storage 2. Nesil'i ve ardından Devam'ı seçin.
Veri kümesi türü için Sınırlanmış Metin'i seçin ve yeniden Devam'ı seçin.
Veri kümesini "MoviesCSV" olarak adlandırın ve dosyaya yeni bir bağlı hizmet oluşturmak için Bağlı hizmet'in altında + Yeni'yi seçin.
Daha önce Önkoşullar bölümünde oluşturduğunuz depolama hesabınızın ayrıntılarını sağlayın ve buraya yüklediğiniz MoviesCSV dosyasına göz atın ve dosyayı seçin.
Bağlı hizmetinizi ekledikten sonra İlk satırı üst bilgi olarak kullan kutusunu seçin ve ardından kaynağı eklemek için Tamam seçeneğine tıklayın.
Veri akışı ayarları penceresinin Projeksiyon sekmesine gidin ve veri türlerini algıla'yı seçin.
Şimdi veri akışı düzenleyicisi penceresinde Kaynak'ı seçin + ve aşağı kaydırarak Hedef bölümünün altındaki Havuz'a gidin ve veri akışınıza yeni bir havuz ekleyin.
Havuz eklendikten sonra görünen havuz ayarlarının Havuz sekmesinde, Havuz türü için Satır içi'ni ve satır içi veri kümesi türü için Delta'yı seçin. Ardından Bağlı hizmet için Azure Data Lake Storage 2. Nesil'inizi seçin.
Depolama kapsayıcınızda hizmetin Delta Lake'i oluşturmasını istediğiniz bir klasör adı seçin.
Son olarak, işlem hattı tasarımcısına geri dönün ve işlem hattını tuvalde yalnızca bu veri akışı etkinliğiyle hata ayıklama modunda yürütmek için Hata Ayıkla'yı seçin. Bu, yeni Delta Lake'inizi Azure Data Lake Storage 2. Nesil oluşturur.
Şimdi ekranın sol tarafındaki Fabrika Kaynakları menüsünden yeni bir kaynak eklemek için öğesini + ve ardından Veri akışı'nı seçin.
Daha önce olduğu gibi, MoviesCSV dosyasını kaynak olarak yeniden seçin ve ardından Projeksiyonsekmesinden Veri türlerini algıla'yı yeniden seçin.
Bu kez, kaynağı oluşturduktan sonra veri akışı düzenleyicisi penceresinde öğesini seçin + ve kaynağınıza bir Filtre dönüştürmesi ekleyin.
Filtre ayarları penceresinde, yalnızca 1950, 1960 ve 1988 ile eşleşen film satırlarına izin veren bir Filtre On koşulu ekleyin.
Şimdi her 1988 filmi için derecelendirmeleri '1' olarak güncelleştirmek için Türetilmiş sütun dönüşümü ekleyin.
Update, insert, delete, and upsertilkeler değişiklik Satırı dönüşümünde oluşturulur. Türetilmiş sütununuzdan sonra bir değişiklik satırı dönüştürmesi ekleyin.Satır değiştirme ilkeleriniz şöyle görünmelidir.
Artık her değişiklik satırı türü için uygun ilkeyi ayarladığınıza göre, havuz dönüşümünde uygun güncelleştirme kurallarının ayarlandığını denetleyin
Burada Azure Data Lake Storage 2. Nesil veri gölünüzde Delta Lake havuzunu kullanıyoruz ve eklemelere, güncelleştirmelere, silmelere izin verdik.
Anahtar sütunlarının Film birincil anahtar sütunundan ve yıl sütunundan oluşan bileşik bir anahtar olduğunu unutmayın. Bunun nedeni, 1960 satırlarını çoğaltarak sahte 2021 filmleri oluşturmamızdır. Bu, benzersizlik sağlayarak mevcut satırları ararken çakışmaları önler.
tamamlanan örneği indirme
Aşağıda delta işlem hattı için örnek bir çözüm ve göldeki satırları güncelleştirme/silme için veri akışı verilmiştir.
İlgili içerik
Veri akışı ifade dili hakkında daha fazla bilgi edinin.