Aracılığıyla paylaş


Eşleme veri akışını kullanarak verileri güvenli bir şekilde dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory kullanmaya yeni başlıyorsanız bkz. Azure Data Factory'ye giriş.

Bu öğreticide, Data Factory Yönetilen'de eşleme veri akışını kullanarak verileri Azure Data Lake Storage 2. Nesil bir kaynaktan Data Lake Storage 2. Nesil havuzuna kopyalayıp dönüştüren (her ikisi de yalnızca seçili ağlara erişime izin veren) bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini (UI) kullanacaksınız Sanal Ağ. Eşleme veri akışını kullanarak verileri dönüştürürken bu öğreticideki yapılandırma desenini genişletebilirsiniz.

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.
  • Veri akışı etkinliğiyle işlem hattı oluşturma.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri akışı etkinliğini izleme.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
  • Azure depolama hesabı. Data Lake Storage'ı kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma. Depolama hesabının yalnızca seçili ağlardan erişime izin verdiğinden emin olun.

Bu öğreticide dönüştüreceğimiz dosya, bu GitHub içerik sitesinde bulunabilecek moviesDB.csv. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler sample-data adlı bir kapsayıcıya başvurur.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory kullanıcı arabirimini açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimini yalnızca Microsoft Edge ve Google Chrome web tarayıcıları desteklemektedir.

  2. Soldaki menüde Kaynak

  3. Yeni veri fabrikası sayfasında Ad bölümüne ADFTutorialDataFactory girin.

    Veri fabrikasının adı genel olarak benzersiz olmalıdır. Ad değeri hakkında bir hata iletisi alırsanız, veri fabrikası için farklı bir ad girin (örneğin, adınızADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için bkz.Data Factory adlandırma kuralları.

  4. Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    • Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.
    • Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.

    Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm bölümünde V2'yi seçin.

  7. Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve Azure SQL Veritabanı) ve işlem (örneğin, Azure HDInsight) diğer bölgelerde olabilir.

  8. Oluştur'u belirleyin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezinde bildirimi görürsünüz. Data Factory sayfasına gitmek için Kaynağa git'i seçin.

  10. Data Factory kullanıcı arabirimini ayrı bir sekmede başlatmak için Azure Data Factory Studio'yu Aç'ı seçin.

Data Factory Yönetilen Sanal Ağ'nde Azure IR oluşturma

Bu adımda bir Azure IR oluşturacak ve Data Factory Yönetilen Sanal Ağ etkinleştirebilirsiniz.

  1. Data Factory portalında Yönet'e gidin ve Yeni'yi seçerek yeni bir Azure IR oluşturun.

    Yeni bir Azure IR oluşturmayı gösteren ekran görüntüsü.

  2. Tümleştirme çalışma zamanı kurulumu sayfasında, gerekli özelliklere göre hangi tümleştirme çalışma zamanının oluşturulacağını seçin. Bu öğreticide Azure, Şirket İçinde Barındırılan seçeneğini belirleyip Devam'a tıklayın.

  3. Azure'ı seçin ve ardından Devam'a tıklayarak azure tümleştirme çalışma zamanı oluşturun.

    Yeni bir Azure IR'nin gösterildiği ekran görüntüsü.

  4. Sanal ağ yapılandırması (Önizleme) altında Etkinleştir'i seçin.

    Yeni bir Azure IR'yi etkinleştirmeyi gösteren ekran görüntüsü.

  5. Oluştur'u belirleyin.

Veri akışı etkinliğiyle işlem hattı oluşturma

Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

  1. Azure Data Factory'nin giriş sayfasında Düzenle'yi seçin.

    Orchestrate düğmesinin vurgulandığı data factory giriş sayfasını gösteren ekran görüntüsü.

  2. İşlem hattının özellikler bölmesinde, işlem hattı adı için TransformMovies girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür'ü genişletin. bölmeden Veri Akışı etkinliğini işlem hattı tuvaline sürükleyin.

  4. Veri akışı ekleme açılır penceresinde Yeni veri akışı oluştur'u ve ardından Eşleme Veri Akışı'ni seçin. İşiniz bittiğinde Tamam'ı seçin.

    Eşleme Veri Akışı gösteren ekran görüntüsü.

  5. Özellikler bölmesinde veri akışınızı TransformMovies olarak adlandırın.

  6. İşlem hattı tuvalinin üst çubuğunda hata ayıklama kaydırıcısını Veri Akışı kaydırın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.

    Veri akışı hata ayıklama kaydırıcısını gösteren ekran görüntüsü.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri akışınızı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda Data Lake Storage'daki moviesDB.csv dosyasını alan ve 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı Data Lake Storage'a geri yazacaksınız.

Kaynak dönüştürmeyi ekleme

Bu adımda, Data Lake Storage 2. Nesil kaynak olarak ayarlarsınız.

  1. Veri akışı tuvalinde Kaynak Ekle kutusunu seçerek bir kaynak ekleyin.

  2. Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.

  3. Azure Data Lake Storage 2. Nesil'ı ve ardından Devam'ı seçin.

  4. Sınırlandırılmış Metin'i ve ardından Devam'ı seçin.

  5. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.

  6. Bağlı hizmet oluşturma ekranında, Data Lake Storage 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu öğreticide, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz.

  7. Etkileşimli yazma özelliğini etkinleştirdiğinizden emin olun. Etkinleştirilmesi bir dakika sürebilir.

    Etkileşimli yazma işlemini gösteren ekran görüntüsü.

  8. Bağlantıyı sına’yı seçin. Depolama hesabı özel uç nokta oluşturmadan ve onaylamadan erişime izin vermediğinden başarısız olmalıdır. Hata iletisinde, yönetilen özel uç nokta oluşturmak için izleyebileceğiniz bir özel uç nokta oluşturma bağlantısını görmeniz gerekir. Alternatif olarak doğrudan Yönet sekmesine gidin ve yönetilen özel uç nokta oluşturmak için bu bölümdeki yönergeleri izleyin.

  9. İletişim kutusunu açık tutun ve depolama hesabınıza gidin.

  10. Özel bağlantıyı onaylamak için bu bölümdeki yönergeleri izleyin.

  11. İletişim kutusuna geri dönün. Bağlantıyı yeniden test et'i ve bağlı hizmeti dağıtmak için Oluştur'u seçin.

  12. Veri kümesi oluşturma ekranında Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu öğreticide, moviesDB.csv dosyası kapsayıcı sample-data içinde bulunur. Dosyada üst bilgiler olduğundan, İlk satır üst bilgi olarak onay kutusunu seçin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'ı seçin.

    Kaynak yolu gösteren ekran görüntüsü.

  13. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

    Veri Önizleme sekmesini gösteren ekran görüntüsü.

Yönetilen özel uç nokta oluşturma

Önceki bağlantıyı test ederken köprüyü kullanmadıysanız yolu izleyin. Şimdi, oluşturduğunuz bağlı hizmete bağlanacağınız yönetilen bir özel uç nokta oluşturmanız gerekir.

  1. Yönet sekmesine gidin.

    Not

    Yönet sekmesi tüm Data Factory örnekleri için kullanılamayabilir. Bunu görmüyorsanız, Bağlantıları> erişebilirsiniz.

  2. Yönetilen özel uç noktalar bölümüne gidin.

  3. Yönetilen özel uç noktalar altında + Yeni'yi seçin.

    Yönetilen özel uç noktalar Yeni düğmesini gösteren ekran görüntüsü.

  4. Listeden Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve Devam'ı seçin.

  5. Oluşturduğunuz depolama hesabının adını girin.

  6. Oluştur'u belirleyin.

  7. Birkaç saniye sonra, oluşturulan özel bağlantının bir onay gerektiğini görmeniz gerekir.

  8. Oluşturduğunuz özel uç noktayı seçin. Depolama hesabı düzeyinde özel uç noktayı onaylamanıza yol açacak bir köprü görebilirsiniz.

    Özel uç noktayı yönet bölmesini gösteren ekran görüntüsü.

  1. Depolama hesabında Ayarlar bölümünün altında Özel uç nokta bağlantıları'nagidin.

  2. Oluşturduğunuz özel uç noktanın onay kutusunu işaretleyin ve Onayla'yı seçin.

    Özel uç noktayı Onayla düğmesini gösteren ekran görüntüsü.

  3. Açıklama ekleyin ve evet'i seçin.

  4. Data Factory'de Yönet sekmesinin Yönetilen özel uç noktalar bölümüne geri dönün.

  5. Yaklaşık bir dakika sonra özel uç noktanız için onayın göründüğünü görmeniz gerekir.

Filtre dönüştürmesini ekleme

  1. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Ekleyeceğiniz ilk dönüştürme bir Filtre'dir.

    Filtre eklemeyi gösteren ekran görüntüsü.

  2. Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusunu seçin. Burada filtreleme koşulunuzu belirteceksiniz.

    FilterYears'i gösteren ekran görüntüsü.

  3. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz . Veri akışı ifade oluşturucusu.

    • Bu öğreticide, 1910 ile 2000 yılları arasında çıkan komedi türünde filmleri filtrelemek istiyorsunuz. Yıl şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya toInteger() dönüştürmeniz gerekir. 1910 ve 2000 değişmez yıl değerleriyle karşılaştırmak için büyüktür veya> eşittir (=) ve küçük veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri ve (&) işleciyle birleştirin. İfade şu şekilde ortaya çıkar:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerindeki 'Comedy' desenini bulabilirsiniz. İfadeyi rlike , elde etmek için yıl karşılaştırmasıyla ilişkilendirin:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'yi seçerek mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.

      Filtre ifadesini gösteren ekran görüntüsü.

    • Kaydet'i seçin ve ifadenizi tamamladıktan sonra bitirin .

  4. Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.

    Filtrelenmiş Veri Önizleme'yi gösteren ekran görüntüsü.

Toplam dönüştürmeyi ekleme

  1. Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.

    Toplamayı eklemeyi gösteren ekran görüntüsü.

  2. Toplama dönüştürmenize AggregateComedyRating adını verin. Gruplandırma ölçütü sekmesinde, aşağı açılan kutudan yıl'ı seçerek toplamaları filmin çıktığı yıla göre gruplandırın.

    Toplama grubunu gösteren ekran görüntüsü.

  3. Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.

    Toplam sütun adını gösteren ekran görüntüsü.

  4. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

  5. Kaydet'i seçin ve bitirdikten sonra bitirin .

    Toplamanın kaydedildiğini gösteren ekran görüntüsü.

  6. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

Havuz dönüştürmesini ekleme

  1. Ardından, Hedef'in altına havuz dönüşümü eklemek istiyorsunuz.

    Havuz eklemeyi gösteren ekran görüntüsü.

  2. Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.

    Havuz oluşturmayı gösteren ekran görüntüsü.

  3. Yeni veri kümesi sayfasında Azure Data Lake Storage 2. Nesil'ı ve ardından Devam'ı seçin.

  4. Biçim seçin sayfasında Sınırlanmış Metin'ive ardından Devam'ı seçin.

  5. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için kaynak dönüştürme için oluşturduğunuz ADLSGen2 bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu öğreticide, kapsayıcı örnek verilerindeki klasör çıkışına yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satır üst bilgi olarak onay kutusunu seçin ve Şemayı içeri aktarma için Yok'a tıklayın. Tamam'ı seçin.

    Havuz yolunu gösteren ekran görüntüsü.

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri akışını çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetiklersiniz. Veri önizlemesi veri yazmasa da hata ayıklama çalıştırması havuz hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

  2. Veri akışı etkinliklerinde işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra çalıştırma ayrıntıları için gözlük simgesini seçin.

  3. Ayrıntılar sayfasında, satır sayısını ve her dönüştürme adımında harcanan zamanı görebilirsiniz.

    İzleme çalıştırmasını gösteren ekran görüntüsü.

  4. Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.

Bu öğreticiyi doğru bir şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verilerin doğru olduğunu doğrulayabilirsiniz.

Özet

Bu öğreticide Data Factory yönetilen Sanal Ağ eşleme veri akışını kullanarak verileri bir Data Lake Storage 2. Nesil kaynağından Data Lake Storage 2. Nesil havuzuna kopyalayan ve dönüştüren (her ikisi de yalnızca seçili ağlara erişime izin veren) bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini kullandınız.