Eşleme veri akışını kullanarak verileri güvenli bir şekilde dönüştürme

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Azure Data Factory'ye yeniyseniz, Azure Data Factory'e Giriş'e bakın.

Bu öğreticide, Azure Data Lake Storage Gen2 kaynaklarından Azure Data Lake Storage Gen2 hedeflerine verileri kopyalayıp dönüştüren bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini (UI) kullanacaksınız. Tüm ağlara yalnızca seçili ağlara erişime izin verilir. Bu işlemi, Data Factory Yönetilen Virtual Network içinde eşleme veri akışını kullanarak gerçekleştireceksiniz. Eşleme veri akışını kullanarak verileri dönüştürürken bu öğreticideki yapılandırma desenini genişletebilirsiniz.

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.
  • Bir veri akışı etkinliğiyle işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattını test çalıştır.
  • Veri akışı etkinliğini izleme.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce free Azure hesabı oluşturun.
  • Azure depolama hesabı. Data Lake Storage source ve sink veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma. Depolama hesabının yalnızca seçili ağlardan erişime izin verdiğinden emin olun.

Bu öğreticide dönüştüreceğimiz dosya moviesDB.csvGitHub içerik sitesinde bulunabilir. Dosyayı GitHub'dan almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayın ve yerel olarak bir .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz. blobları Azure portalıyla yükleme. Örnekler sample-data adlı bir kapsayıcıya başvurur.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory kullanıcı arabirimini açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome'da açın. Şu anda Data Factory kullanıcı arabirimini yalnızca Microsoft Edge ve Google Chrome web tarayıcıları desteklemektedir.

  2. Soldaki menüde Kaynak oluştur>Analitik>Veri Fabrikası seçeneklerini seçin.

  3. Yeni veri fabrikası sayfasında Ad bölümüne ADFTutorialDataFactory girin.

    Veri fabrikasının adı genel olarak benzersiz olmalıdır. Ad değeri hakkında bir hata iletisi alırsanız, veri fabrikası için farklı bir ad girin (örneğin, adınızADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için bkz.Data Factory adlandırma kuralları.

  4. Veri fabrikasını oluşturmak istediğiniz Azure subscription seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    • Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.
    • Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.

    Kaynak grupları hakkında bilgi edinmek için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm bölümünde V2'yi seçin.

  7. Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Storage ve Azure SQL Database) ve hesaplamalar (örneğin, Azure HDInsight) diğer bölgelerde olabilir.

  8. Oluştur'u belirleyin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezinde bildirimi görürsünüz. Kaynağa git seçeneğini seçerek Data Factory sayfasına gidin.

  10. Data Factory kullanıcı arabirimini ayrı bir sekmede başlatmak için Open Azure Data Factory Studio seçeneğini belirleyin.

Data Factory Yönetilen Sanal Ağ'da Azure IR oluşturma

Bu adımda bir Azure IR oluşturur ve Data Factory Yönetilen Virtual Network etkinleştirirsiniz.

  1. Data Factory portalında Manage gidin ve yeni bir Azure IR oluşturmak için New öğesini seçin.

    Yeni bir Azure IR oluşturmayı gösteren ekran görüntüsü.

  2. Tümleştirme çalışma zamanı kurulumu sayfasında, gerekli özelliklere göre hangi tümleştirme çalışma zamanının oluşturulacağını seçin. Bu öğreticide, Azure, Şirket İçinde Barındırılan öğesini seçin ve ardından Devam Et öğesine tıklayın.

  3. Azure öğesini seçin ve ardından Azure Tümleştirme çalışma zamanı oluşturmak için Continue öğesine tıklayın.

    Yeni bir Azure IR gösteren ekran görüntüsü.

  4. Sanal ağ yapılandırması (Önizleme) altında Etkinleştir'i seçin.

    Yeni bir Azure IR'in etkinleştirilmesini gösteren ekran görüntüsü.

  5. Oluştur'u belirleyin.

Bir veri akışı etkinliğiyle veri hattı oluşturun

Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

  1. Azure Data Factory giriş sayfasında Orchestrate öğesini seçin.

    Orchestrate düğmesinin vurgulandığı data factory giriş sayfasını gösteren ekran görüntüsü.

  2. İşlem hattının özellikler bölmesinde, işlem hattı adı için TransformMovies girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür'ü genişletin. Data Flow aktivitesini pencereden işlem hattı tuvaline sürükleyin.

  4. Veri akışı ekleme açılır penceresinde Yeni veri akışı oluştur öğesini seçin ve ardından Veri Akışı Haritalama öğesini seçin. İşiniz bittiğinde Tamam'ı seçin.

    Mapping Veri Akışını gösteren ekran görüntüsü

  5. Özellikler bölmesinde veri akışınızı TransformMovies olarak adlandırın.

  6. İşlem hattı tuvalinin üst çubuğunda Data Flow debug kaydırıcısını açın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Data Flow kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Data Flow geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için Hata Ayıklama Modu'na bakın.

    Veri akışı hata ayıklama kaydırıcısını gösteren ekran görüntüsü.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri akışınızı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, moviesDB.csv dosyasını Data Lake Storage alan ve 1910 ile 2000 arasında komedilerin ortalama derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı Data Lake Storage'a geri yazacaksınız.

Kaynak dönüştürmeyi ekleme

Bu adımda, Data Lake Storage Gen2 kaynak olarak ayarlarsınız.

  1. Veri akışı tuvalinde Kaynak Ekle kutusunu seçerek bir kaynak ekleyin.

  2. Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.

  3. Azure Data Lake Storage Gen2'ı seçin ve ardından Continue öğesini seçin.

  4. Sınırlandırılmış Metin'i ve ardından Devam'ı seçin.

  5. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılır listesinden Yeni'yi seçin.

  6. Bağlı hizmet oluşturma ekranında, Data Lake Storage Gen2 bağlı hizmetinizi ADLSGen2 adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu öğreticide, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz.

  7. Etkileşimli yazma özelliğini etkinleştirdiğinizden emin olun. Etkinleştirilmesi bir dakika sürebilir.

    Etkileşimli yazma işlemini gösteren ekran görüntüsü.

  8. Bağlantıyı sına’yı seçin. Depolama hesabı, özel uç nokta oluşturulup onaylanmadığı sürece erişime izin vermediği için başarısızlık beklentisi doğurur. Hata iletisinde, yönetilen özel uç nokta oluşturmak için izleyebileceğiniz bir özel uç nokta oluşturma bağlantısını görmeniz gerekir. Alternatif olarak doğrudan Yönet sekmesine gidin ve yönetilen özel uç nokta oluşturmak için bu bölümdeki yönergeleri izleyin.

  9. İletişim kutusunu açık tutun ve depolama hesabınıza gidin.

  10. Özel bağlantıyı onaylamak için bu bölümdeki yönergeleri izleyin.

  11. İletişim kutusuna geri dönün. Bağlantıyı yeniden test et'i ve bağlı hizmeti dağıtmak için Oluştur'u seçin.

  12. Veri kümesi oluşturma ekranında Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu öğreticide, moviesDB.csv dosyası kapsayıcı sample-data içinde bulunur. Dosyada üst bilgiler olduğundan, İlk satırı üst bilgi olarak ata onay kutusunu seçin. Bağlantıdan/Depodan seçerek, başlık şemasını depolamadaki dosyadan doğrudan içeri aktarın. İşiniz bittiğinde Tamam'ı seçin.

    Kaynak yolu gösteren ekran görüntüsü.

  13. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

    Veri Önizleme sekmesini gösteren ekran görüntüsü.

Yönetilen özel uç nokta oluşturma

Önceki bağlantıyı test ederken köprüyü kullanmadıysanız yolu izleyin. Şimdi, oluşturduğunuz bağlı hizmete bağlanacağınız yönetilen bir özel uç nokta oluşturmanız gerekir.

  1. Yönet sekmesine gidin.

    Not

    Yönet sekmesi tüm Data Factory örnekleri için kullanılamayabilir. Bunu görmüyorsanız, Yazar>Bağlantılar>Özel Uç Nokta seçeneklerini seçerek özel uç noktalara erişebilirsiniz.

  2. Yönetilen özel uç noktalar bölümüne gidin.

  3. + Yeni'yi Yönetilen özel uç noktalar altında seçin.

    Yönetilen özel uç noktalar Yeni düğmesini gösteren ekran görüntüsü.

  4. Listeden Azure Data Lake Storage Gen2 kutucuğunu seçin ve Continue öğesini seçin.

  5. Oluşturduğunuz depolama hesabının adını girin.

  6. Oluştur'u belirleyin.

  7. Birkaç saniye sonra, oluşturulan özel bağlantının bir onay gerektiğini görmeniz gerekir.

  8. Oluşturduğunuz özel uç noktayı seçin. Depolama hesabı düzeyinde özel uç noktayı onaylamanıza yol açacak bir köprü görebilirsiniz.

    Özel uç noktayı yönet bölmesini gösteren ekran görüntüsü.

  1. Depolama hesabında Ayarlar bölümünün altında Özel uç nokta bağlantıları'nagidin.

  2. Oluşturduğunuz özel uç noktanın onay kutusunu işaretleyin ve Onayla'yı seçin.

    Özel uç noktayı Onayla düğmesini gösteren ekran görüntüsü.

  3. Açıklama ekleyin ve evet'i seçin.

  4. Data Factory'de Yönet sekmesinin Yönetilen özel uç noktalar bölümüne geri dönün.

  5. Yaklaşık bir dakika sonra özel uç noktanız için onayın göründüğünü görmeniz gerekir.

Filtre dönüşümünü ekle

  1. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Ekleyeceğiniz ilk dönüştürme bir Filtre'dir.

    Filtre eklemeyi gösteren ekran görüntüsü.

  2. Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusunu seçin. Burada filtreleme koşulunuzu belirteceksiniz.

    FilterYears'i gösteren ekran görüntüsü.

  3. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz . Veri akışı ifade oluşturucusu.

    • Bu öğreticide, 1910 ile 2000 yılları arasında çıkan komedi türünde filmleri filtrelemek istiyorsunuz. Yıl şu anda bir dize olduğundan, toInteger() işlevini kullanarak onu bir tamsayıya dönüştürmeniz gerekiyor. 1910 ve 2000 değişmez yıl değerleriyle karşılaştırmak için büyüktür veya eşittir (>=) ve küçüktür veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri "ve" (&&) işleciyle birleştirin. İfade şu şekilde ortaya çıkar:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerindeki 'Comedy' desenini bulabilirsiniz. Yıl karşılaştırmasıyla rlike ifadesini birleştirerek elde edin:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'yi seçerek mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.

      Filtre ifadesini gösteren ekran görüntüsü.

    • Tamamladığınızda Kaydet ve bitir'i seçin.

  4. Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.

    Filtrelenmiş Veri Önizleme'yi gösteren ekran görüntüsü.

Toplam dönüştürmeyi ekleme

  1. Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.

    Toplamayı eklemeyi gösteren ekran görüntüsü.

  2. Toplama dönüştürmenize AggregateComedyRating adını verin. Tab sekmesinde, aşağı açılan kutudan yıl'ı seçerek toplamaları filmin çıktığı yıla göre gruplandırın.

    Toplama grubunu gösteren ekran görüntüsü.

  3. Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.

    Toplam sütun adını gösteren ekran görüntüsü.

  4. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

  5. Kaydet ve bitir'i seçin.

    Toplamanın kaydedildiğini gösteren ekran görüntüsü.

  6. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

Havuz dönüştürmesini ekleme

  1. Ardından, Hedef'in altına bir Sink dönüşümü eklemek istiyorsunuz.

    Havuz eklemeyi gösteren ekran görüntüsü.

  2. Lavabonuzu Lavabo olarak adlandırın. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.

    Havuz oluşturmayı gösteren ekran görüntüsü.

  3. Yeni veri kümesi sayfasında Azure Data Lake Storage Gen2 öğesini seçin ve ardından Continue öğesini seçin.

  4. Biçim seçin sayfasında Sınırlanmış Metin'ive ardından Devam'ı seçin.

  5. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için kaynak dönüştürme için oluşturduğunuz ADLSGen2 bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu öğreticide, örnek-veri kapsayıcısındaki çıkış klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak ayarla onay kutusunu seçin ve Şema içeri aktarma için Yok'u seçin. Tamam'ı seçin.

    Havuz yolunu gösteren ekran görüntüsü.

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri akışını çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetiklersiniz. Veri önizlemesi veri yazmasa da hata ayıklama çalıştırması havuz hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

  2. Veri akışı etkinliklerinde işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra çalıştırma ayrıntıları için gözlük simgesini seçin.

  3. Ayrıntılar sayfasında, satır sayısını ve her dönüştürme adımında harcanan zamanı görebilirsiniz.

    İzleme çalıştırmasını gösteren ekran görüntüsü.

  4. Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.

Bu öğreticiyi doğru bir şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verilerin doğru olduğunu doğrulayabilirsiniz.

Özet

Bu öğreticide Data Factory kullanıcı arabirimini kullanarak Data Factory Yönetilen Virtual Network'da eşleme veri akışını kullanarak verileri Data Lake Storage Gen2 bir kaynaktan Data Lake Storage Gen2 havuzuna (hem yalnızca seçili ağlara erişime izin verir) kopyalayan ve dönüştüren bir işlem hattı oluşturacaksınız.