Eşleme veri akışlarını kullanarak delta lake'te verileri dönüştürme

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Azure Data Factory'ye yeniyseniz, Azure Data Factory'e Giriş'e bakın.

Bu öğreticide, veri akışı tuvalini kullanarak Azure Data Lake Storage (ADLS) 2. Nesil'de verileri analiz edip dönüştürmenize ve Delta Lake'te depolamanıza olanak sağlayan veri akışları oluşturursunuz.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce free Azure hesabı oluşturun.
  • Azure depolama hesabı. ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.

Bu öğreticide dönüştürdüğümiz dosya MoviesDB.csvburada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayın ve ardından yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz. blobları Azure portalıyla yükleme. Örnekler, 'sample-data' adlı bir kapsayıcıya başvuruyor.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory UX'yi açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.

  2. Sol menüde Kaynak> oluşturIntegration>Data Factory'yi seçin

  3. Yeni veri fabrikası sayfası Ad alanına ADFTutorialDataFactory girin.

  4. Veri fabrikasını oluşturmak istediğiniz Azure subscription seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    a. Var olanı kullan'ı seçin ve açılan listeden mevcut bir kaynak grubunu seçin.

    b. Yeni oluştur'u seçin ve kaynak grubunun adını girin.

    Kaynak grupları hakkında bilgi edinmek için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm altında V2'yi seçin.

  7. Konum'un altında veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve SQL Veritabanı) ve işlem (örneğin, Azure HDInsight) diğer bölgelerde olabilir.

  8. Oluştur'u seçin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezi'nde bildirimi görürsünüz. Data factory sayfasına gitmek için Kaynağa Git seçin.

  10. Data Factory Kullanıcı Arabirimini (UI) ayrı bir sekmede başlatmak için Author & Monitor'u seçin.

Veri akışı etkinliğiyle bir boru hattı oluşturma

Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturursunuz.

  1. Giriş sayfasında Düzenle'yi seçin.

    ADF giriş sayfasını gösteren ekran görüntüsü.

  2. İşlem hattının Genel sekmesinde, işlem hattının Adı için DeltaLake girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu genişletin. bölmeden Veri Akışı etkinliğini sürükleyip işlem hattı tuvaline bırakın.

    Ekran görüntüsü, Veri Akışı aktivitesini bırakabileceğiniz işlem hattı tuvalini göstermektedir.

  4. İşlem hattı tuvalinin üst çubuğunda Veri Akışı debug kaydırıcısını açın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz. Hata Ayıklama Modu.

    Veri akışı hata ayıklama kaydırıcısının nerede olduğunu gösteren ekran görüntüsü.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Bu öğreticide iki veri akışı oluşturacaksınız. İlk veri akışı, filmler CSV dosyasından yeni bir Delta Lake oluşturmak için havuza alınan basit bir kaynaktır. Son olarak, Delta Lake'teki verileri güncelleştirmek için aşağıdaki akış tasarımını oluşturursunuz.

Son akış

Öğretici hedefleri

  1. Önkoşullardan MoviesCSV veri kümesi kaynağını kullanın ve bu kaynaktan yeni bir Delta Lake oluşturabilirsiniz.
  2. 1988 filmlerinin derecelendirmelerini '1' olarak güncelleştirecek mantığı oluşturun.
  3. 1950'den tüm filmleri silin.
  4. Yeni filmler eklemek için 1960 yılındaki filmleri 2021'e kopyalayın.

Boş bir veri akışı tuvalinden başlama

  1. Veri akışı düzenleyicisi penceresinin üst kısmındaki kaynak dönüştürmeyi seçin ve ardından Kaynak ayarlarıpenceresindeki Veri kümesi özelliğinin yanındaki + Yeni'yi seçin:

    Veri akışına yeni bir kaynak veri kümesinin nereye ekleneceğini gösteren ekran görüntüsü.

  2. Görüntülenen Yeni veri kümesi penceresinden Azure Data Lake Storage 2. Nesil öğesini seçin ve ardından Continue öğesini seçin.

    Yeni veri kümesi penceresinden Azure Data Lake Storage 2. Nesil seçileceği yeri gösteren ekran görüntüsü.

  3. Veri kümesi türü için Sınırlanmış Metin'i seçin ve yeniden Devam'ı seçin.

    Veri kümesinin biçiminin seçileceği yeri gösteren ekran görüntüsü.

  4. Veri kümesini "MoviesCSV" olarak adlandırın ve dosyaya yeni bir bağlı hizmet oluşturmak için Bağlı hizmet'in altında + Yeni'yi seçin.

  5. Daha önce Önkoşullar bölümünde oluşturduğunuz depolama hesabınızın ayrıntılarını sağlayın ve buraya yüklediğiniz MoviesCSV dosyasına göz atın ve dosyayı seçin.

  6. Bağlı hizmetinizi ekledikten sonra İlk satırı üst bilgi olarak kullan kutusunu seçin ve ardından kaynağı eklemek için Tamam seçeneğine tıklayın.

  7. Veri akışı ayarları penceresinin Projeksiyon sekmesine gidin ve veri türlerini algıla'yı seçin.

  8. Şimdi veri akışı düzenleyicisi penceresinde Kaynak'ı seçin + ve aşağı kaydırarak Hedef bölümünün altındaki Havuz'a gidin ve veri akışınıza yeni bir havuz ekleyin.

    Veri akışı için havuz hedefinin ekleneceği yeri gösteren ekran görüntüsü.

  9. Havuz eklendikten sonra görünen havuz ayarlarının Havuz sekmesinde, Havuz türü için Satır içi'ni ve satır içi veri kümesi türü için Delta'yı seçin. Ardından Linked service için Azure Data Lake Storage 2. Nesil seçin.

    Satır içi delta veri kümesinin Havuz ayrıntılarını gösteren ekran görüntüsü.

  10. Depolama kapsayıcınızda hizmetin Delta Lake'i oluşturmasını istediğiniz bir klasör adı seçin.

  11. Son olarak, işlem hattı tasarımcısına geri dönün ve işlem hattını tuvalde yalnızca bu veri akışı etkinliğiyle hata ayıklama modunda yürütmek için Hata Ayıkla'yı seçin. Bu, sizin yeni Delta Lake'inizi Azure Data Lake Storage 2. Nesil'de oluşturur.

  12. Şimdi ekranın sol tarafındaki Fabrika Kaynakları menüsünden yeni bir kaynak eklemek için öğesini + ve ardından Veri akışı'nı seçin.

    Veri fabrikasında yeni bir veri akışının nerede oluşturulacağını gösteren ekran görüntüsü.

  13. Daha önce olduğu gibi, MoviesCSV dosyasını kaynak olarak yeniden seçin ve ardından Projeksiyonsekmesinden Veri türlerini algıla'yı yeniden seçin.

  14. Bu kez, kaynağı oluşturduktan sonra veri akışı düzenleyicisi penceresinde öğesini seçin + ve kaynağınıza bir Filtre dönüştürmesi ekleyin.

    Veri akışına Filtre koşulunun nereye ekleneceğini gösteren ekran görüntüsü.

  15. Filtre ayarları penceresinde, yalnızca 1950, 1960 ve 1988 ile eşleşen film satırlarına izin veren bir Filtre On koşulu ekleyin.

    Veri kümesinin Year sütununa nereye filtre ekleneceğini gösteren ekran görüntüsü.

  16. Şimdi her 1988 filmi için derecelendirmeleri '1' olarak güncelleştirmek için Türetilmiş sütun dönüşümü ekleyin.

    Türetilmiş sütun için ifadenin girileceği yeri gösteren ekran görüntüsü.

  17. Update, insert, delete, and upsert ilkeler alter Row dönüştürmesinde oluşturulur. Türetilmiş sütununuzdan sonra bir "alter row" dönüştürme ekleyin.

  18. Satır değiştirme ilkeleriniz şöyle görünmelidir.

    Satırı değiştir

  19. Artık her değişiklik satırı türü için uygun ilkeyi ayarladığınıza göre, havuz dönüşümünde uygun güncelleştirme kurallarının ayarlandığını denetleyin

    Batmak

  20. Burada Azure Data Lake Storage 2. Nesil veri gölünüzde Delta Lake havuzunu kullanıyoruz ve eklemelere, güncelleştirmelere, silmelere izin verdik.

  21. Anahtar sütunlarının Film birincil anahtar sütunundan ve yıl sütunundan oluşan bileşik bir anahtar olduğunu unutmayın. Bunun nedeni, 1960 satırlarını çoğaltarak sahte 2021 filmleri oluşturmamızdır. Bu, benzersizlik sağlayarak mevcut satırları ararken çakışmaları önler.

tamamlanan örneği indirme

Aşağıda delta işlem hattı için örnek bir çözüm ve göldeki satırları güncelleştirme/silme için veri akışı verilmiştir.

Veri akışı ifade dili hakkında daha fazla bilgi edinin.