Azure Data Factory ve Azure Veri Paylaşımı kullanarak veri tümleştirmesi

ŞUNLAR IÇIN GEÇERLIDIR: Azure Data Factory Azure Synapse Analytics

Müşteriler modern veri ambarı ve analiz projelerine girdikçe, yalnızca daha fazla veriye değil, aynı zamanda veri varlıklarında verilerine daha fazla görünürlük de gerektirir. Bu atölyede Azure Data Factory ve Azure'da yapılan iyileştirmeler Veri Paylaşımı Azure'da veri tümleştirmesini ve yönetimini nasıl kolaylaştıracakları ele alınıyor.

Kodsuz ETL/ELT'yi etkinleştirmekten verileriniz üzerinde kapsamlı bir görünüm oluşturmaya kadar Azure Data Factory geliştirmeleri, veri mühendislerinizin kuruluşunuza güvenle daha fazla veri ve dolayısıyla daha fazla değer getirmesini sağlayacaktır. Azure Veri Paylaşımı, iş paylaşımını idareli bir şekilde yapmanıza olanak tanır.

Bu atölyede, Azure SQL Veritabanından Azure Data Lake Storage 2. Nesil 'a (ADLS 2. Nesil) veri almak için Azure Data Factory (ADF) kullanacaksınız. Verileri göle indirdikten sonra eşleme veri akışları, veri fabrikasının yerel dönüştürme hizmeti aracılığıyla dönüştürecek ve Azure Synapse Analytics'e aktaracaksınız. Ardından, Azure Veri Paylaşımı kullanarak tabloyu dönüştürülmüş verilerle ve bazı ek verilerle paylaşacaksınız.

Bu laboratuvarda kullanılan veriler New York City taksi verileridir. SQL Veritabanı'da veritabanınıza aktarmak için taxi-data bacpac dosyasını indirin.

Önkoşullar

Azure Data Factory ortamınızı ayarlama

Bu bölümde, Azure portal Azure Data Factory kullanıcı deneyimine (ADF UX) erişmeyi öğreneceksiniz. ADF UX'e geçtikten sonra, kullanmakta olduğumuz veri depolarının her biri için üç bağlı hizmet yapılandıracaksınız: Azure SQL DB, ADLS 2. Nesil ve Azure Synapse Analytics.

Azure Data Factory bağlı hizmetlerde dış kaynaklara bağlantı bilgilerini tanımlayın. Azure Data Factory şu anda 85'in üzerinde bağlayıcıyı desteklemektedir.

Azure Data Factory UX'yi açma

  1. Azure portal Microsoft Edge veya Google Chrome'da açın.

  2. Sayfanın üst kısmındaki arama çubuğunu kullanarak 'Veri Fabrikaları' için arama yapın

    Portal 1

  3. Veri fabrikası kaynağınızı seçerek kaynaklarını sol bölmede açın.

    Portal 2

  4. Azure Data Factory Studio'yu Aç'ı seçin. Data Factory Studio'ya doğrudan adf.azure.com de erişilebilir.

    Azure portal Azure Data Factory giriş sayfasının ekran görüntüsü.

  5. ADF UX'in giriş sayfasına yönlendirilirsiniz. Bu sayfa hızlı başlangıçlar, yönerge videoları ve veri fabrikası kavramlarını öğrenmek için öğreticilere bağlantılar içerir. Yazmaya başlamak için sol taraftaki çubuktaki kalem simgesini seçin.

    Portal yapılandırma

Azure SQL Veritabanı bağlı hizmeti oluşturma

  1. Bağlı hizmet oluşturmak için sol taraftaki çubukta Merkezi yönet'i seçin, Bağlantılar bölmesinde Bağlı hizmetler'i seçin ve ardından Yeni'yi seçerek yeni bir bağlı hizmet ekleyin.

    Portal yapılandırma 2

  2. Yapılandırdığınız ilk bağlı hizmet bir Azure SQL DB'dir. Veri deposu listesini filtrelemek için arama çubuğunu kullanabilirsiniz. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin.

    Portal yapılandırma 4

  3. SQL DB yapılandırma bölmesinde bağlı hizmet adınız olarak 'SQLDB' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Portal yapılandırma 5

Azure Synapse Analytics bağlı hizmeti oluşturma

  1. Azure Synapse Analytics bağlı hizmeti eklemek için aynı işlemi yineleyin. Bağlantılar sekmesinde Yeni'yi seçin. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.

    Portal yapılandırma 6

  2. Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDW' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'e tıklayarak bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Portal yapılandırma 7

Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturma

  1. Bu laboratuvar için gereken son bağlı hizmet bir Azure Data Lake Storage 2. nesildir. Bağlantılar sekmesinde Yeni'yi seçin. Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve devam'ı seçin.

    Portal yapılandırma 8

  2. Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'ADLSGen2' girin. Hesap anahtarı kimlik doğrulaması kullanıyorsanız Depolama hesabı adı açılan listesinden ADLS 2. Nesil depolama hesabınızı seçin. Bağlantıyı test et'e tıklayarak bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Portal yapılandırma 9

Veri akışı hata ayıklama modunu açma

Eşleme veri akışını kullanarak verileri dönüştürme bölümünde eşleme veri akışları oluşturacaksınız. Eşleme veri akışları oluşturmadan önce en iyi yöntem, etkin spark kümesinde dönüştürme mantığını saniyeler içinde test etmenizi sağlayan hata ayıklama modunu açmaktır.

Hata ayıklamayı açmak için Veri akışı etkinlikleriniz olduğunda veri akışı tuvalinin veya işlem hattı tuvalinin üst çubuğundaki Veri akışıhata ayıklama kaydırıcısını seçin. Onay iletişim kutusu görüntülendiğinde Tamam'ı seçin. Küme yaklaşık 5-7 dakika içinde başlatılır. Başlatma sırasında kopyalama etkinliğini kullanarak verileri Azure SQL DB'den ADLS 2. Nesil'e almaya devam edin.

Portal yapılandırma 10

Veri akışı hata ayıklama kaydırıcısının nerede olduğunu gösteren ekran görüntüsü.

Kopyalama etkinliğini kullanarak veri alma

Bu bölümde, bir tabloyu Azure SQL DB'den ADLS 2. Nesil depolama hesabına alan kopyalama etkinliğine sahip bir işlem hattı oluşturacaksınız. ADF UX aracılığıyla işlem hattı eklemeyi, veri kümesini yapılandırmayı ve işlem hattında hata ayıklamayı öğreneceksiniz. Bu bölümde kullanılan yapılandırma deseni, ilişkisel veri deposundan dosya tabanlı bir veri deposuna kopyalamaya uygulanabilir.

Azure Data Factory işlem hattı, birlikte bir görev gerçekleştiren etkinliklerin mantıksal gruplandırmasıdır. Etkinlik, verileriniz üzerinde gerçekleştirilecek bir işlemi tanımlar. Veri kümesi, bağlı bir hizmette kullanmak istediğiniz verileri gösterir.

Kopyalama etkinliğiyle işlem hattı oluşturma

  1. Fabrika kaynakları bölmesinde artı simgesini seçerek yeni kaynak menüsünü açın. İşlem Hattı'ı seçin.

    Portal kopyalama 1

  2. İşlem hattı tuvalinin Genel sekmesinde işlem hattınıza 'IngestAndTransformTaxiData' gibi açıklayıcı bir ad verin.

    Portal kopyası 2

  3. İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Verileri kopyala etkinliğini tuvale sürükleyin. Kopyalama etkinliğine 'IngestIntoADLS' gibi açıklayıcı bir ad verin.

    Portal kopyası 3

Azure SQL DB kaynak veri kümesini yapılandırma

  1. Kopyalama etkinliğinin Kaynak sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin. Kaynağınız 'dbo' tablosu olacak. TripData', daha önce yapılandırılan 'SQLDB' bağlı hizmetinde bulunur.

    Portal kopyası 4

  2. Azure SQL Veritabanı için arama yapın ve Devam'ı seçin.

    Portal kopyası 5

  3. Veri kümenizi 'TripData' olarak çağırin. Bağlı hizmetiniz olarak 'SQLDB' seçeneğini belirleyin. 'dbo tablo adını seçin. Tablo adı açılan listesinden TripData' yazın. Şemayı Bağlantıdan/depodan içeri aktarın. Bitirdiğinizde Tamam'ı seçin.

    Portal kopyası 6

Kaynak veri kümenizi başarıyla oluşturdunuz. Kaynak ayarlarında, kullanım sorgusu alanında Tablo varsayılan değerinin seçili olduğundan emin olun.

ADLS 2. Nesil havuz veri kümesini yapılandırma

  1. Kopyalama etkinliğinin Havuz sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin.

    Portal kopyası 7

  2. Azure Data Lake Storage 2. Nesil arayın ve Devam'ı seçin.

    Portal kopyası 8

  3. Biçim seçin bölmesinde, csv dosyasına yazarken Sınırlanmış Metin'i seçin. Devam'ı seçin.

    Portal kopyası 9

  4. Havuz veri kümenize 'TripDataCSV' adını verin. Bağlı hizmetiniz olarak 'ADLSGen2' öğesini seçin. Csv dosyanızı yazmak istediğiniz yeri girin. Örneğin, kapsayıcısında staging-containerdosyaya trip-data.csv verilerinizi yazabilirsiniz. Çıktı verilerinizin üst bilgi olmasını istediğiniz şekilde İlk satırı üst bilgi olarak true olarak ayarlayın. Henüz hedefte dosya olmadığından Şemayı içeri aktar'ıYok olarak ayarlayın. Bitirdiğinizde Tamam'ı seçin.

    Portal kopyası 10

İşlem hattı hata ayıklama çalıştırmasıyla kopyalama etkinliğini test etme

  1. Kopyalama etkinliğinizin düzgün çalıştığını doğrulamak için işlem hattı tuvalinin üst kısmındaki Hata Ayıkla'yı seçerek bir hata ayıklama çalıştırması yürütebilirsiniz. Hata ayıklama çalıştırması, işlem hattınızı veri fabrikası hizmetinde yayımlamadan önce uçtan uca veya kesme noktasına kadar test etmenizi sağlar.

    Portal kopyalama 11

  2. Hata ayıklama çalıştırmanızı izlemek için işlem hattı tuvalinin Çıkış sekmesine gidin. İzleme ekranı her 20 saniyede bir veya yenile düğmesini el ile seçtiğinizde otomatik olarak yeniden açılır. Kopyalama etkinliği, Eylemler sütunundaki göz gözlüğü simgesine tıklayarak erişilebilen özel bir izleme görünümüne sahiptir.

    Portal kopyası 12

  3. Kopyalama izleme görünümü, etkinliğin yürütme ayrıntılarını ve performans özelliklerini verir. Okunan/yazılan veriler, okunan/yazılan satırlar, okunan/yazılan dosyalar ve aktarım hızı gibi bilgileri görebilirsiniz. Her şeyi doğru yapılandırdıysanız, ADLS havuzunuzda bir dosyaya yazılmış 49.999 satır görmeniz gerekir.

    Portal kopyası 13

  4. Sonraki bölüme geçmeden önce, fabrika üst çubuğunda Tümünü yayımla'ya tıklayarak değişikliklerinizi veri fabrikası hizmetinde yayımlamanız önerilir. Bu laboratuvarda ele alınmasa da Azure Data Factory tam git tümleştirmesini destekler. Git tümleştirmesi sürüm denetimine, depoda yinelemeli tasarrufa ve veri fabrikasında işbirliğine olanak tanır. Daha fazla bilgi için bkz. Azure Data Factory kaynak denetimi.

    Portal yayımlama 1

Veri akışlarını eşlemeyi kullanarak verileri dönüştürme

Verileri Azure Data Lake Storage'a başarıyla kopyaladığınıza göre, bu verileri bir veri ambarı içinde birleştirme ve toplama zamanı geldi. Azure Data Factory görsel olarak tasarlanmış dönüştürme hizmeti olan eşleme veri akışını kullanacağız. Veri akışlarını eşlemek, kullanıcıların dönüştürme mantığını kodsuz olarak geliştirmesine ve bunları ADF hizmeti tarafından yönetilen Spark kümelerinde yürütmesine olanak tanır.

Bu adım içinde oluşturulan veri akışı, önceki bölümde oluşturulan 'TripDataCSV' veri kümesini 'dbo' tablosuyla birleştirir. TripFares' dört anahtar sütunu temel alarak 'SQLDB' içinde depolanır. Ardından veriler belirli alanların ortalamasını hesaplamak için sütuna payment_type göre toplanır ve Azure Synapse Analytics tablosuna yazılır.

İşlem hattınıza veri akışı etkinliği ekleme

  1. İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Veri akışı etkinliğini tuvale sürükleyin.

    Portal veri akışı 1

  2. Açılan yan bölmede Yeni veri akışı oluştur'u ve eşleme veri akışı'nı seçin. Tamam’ı seçin.

    Portal veri akışı 2

  3. Dönüştürme mantığınızı oluşturabileceğiniz veri akışı tuvaline yönlendirilirsiniz. Genel sekmesinde veri akışınıza 'JoinAndAggregateData' adını verin.

    Portal veri akışı 3

Seyahat verileri csv kaynağınızı yapılandırma

  1. yapmak istediğiniz ilk şey iki kaynak dönüşümünüzü yapılandırmaktır. İlk kaynak 'TripDataCSV' DelimitedText veri kümesini işaret eder. Kaynak dönüşümü eklemek için tuvaldeki Kaynak Ekle kutusunu seçin.

    Portal veri akışı 4

  2. Kaynağınıza 'TripDataCSV' adını verin ve kaynak açılan listesinden 'TripDataCSV' veri kümesini seçin. Hatırlarsanız, bu veri kümesini oluştururken başlangıçta bir şema içeri aktarmadınız çünkü veri yoktu. Artık mevcut olduğundan trip-data.csv , veri kümesi ayarları sekmesine gitmek için Düzenle'yi seçin.

    Portal veri akışı 5

  3. Şema sekmesine gidin ve Şemayı içeri aktar'ı seçin. Doğrudan dosya deposundan içeri aktarmak için Bağlantıdan/mağazadan'ı seçin. Dize türünde 14 sütun görünmelidir.

    Portal veri akışı 6

  4. 'JoinAndAggregateData' veri akışına Geri dön. Hata ayıklama kümeniz başlatıldıysa (hata ayıklama kaydırıcısının yanındaki yeşil daireyle gösterilir), Veri Önizleme sekmesinde verilerin anlık görüntüsünü alabilirsiniz. Veri önizlemesini getirmek için Yenile'yi seçin.

    Portal veri akışı 7

Not

Veri önizlemesi veri yazmaz.

Seyahat ücretleri SQL DB kaynağınızı yapılandırma

  1. Eklediğiniz ikinci kaynak, 'dbo' SQL DB tablosunu işaret edecektir. TripFares'. 'TripDataCSV' kaynağınızın altında başka bir Kaynak Ekle kutusu olacaktır. Yeni bir kaynak dönüşümü eklemek için bunu seçin.

    Portal veri akışı 8

  2. Bu kaynağı 'TripFaresSQL' olarak adlandır. Yeni bir SQL DB veri kümesi oluşturmak için kaynak veri kümesi alanının yanındaki Yeni'yi seçin.

    Portal veri akışı 9

  3. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin. Not: Veri fabrikasındaki bağlayıcıların çoğunun eşleme veri akışında desteklenmediğini fark edebilirsiniz. Verileri bu kaynaklardan birinden dönüştürmek için kopyalama etkinliğini kullanarak desteklenen bir kaynağa alın.

    Portal veri akışı 10

  4. Veri kümenizi 'TripFares' olarak çağırin. Bağlı hizmetiniz olarak 'SQLDB' seçeneğini belirleyin. 'dbo tablo adını seçin. Tablo adı açılan listesinden TripFares'i seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Bitirdiğinizde Tamam'ı seçin.

    Portal veri akışı 11

  5. Verilerinizi doğrulamak için Veri Önizleme sekmesinde bir veri önizlemesi getirin.

    Portal veri akışı 12

TripDataCSV ve TripFaresSQL'e iç birleşim

  1. Yeni dönüşüm eklemek için 'TripDataCSV' öğesinin sağ alt köşesindeki artı simgesini seçin. Birden çok giriş/çıkış altında Katıl'ı seçin.

    Portala katılma 1

  2. Birleştirme dönüşümünüzü 'InnerJoinWithTripFares' olarak adlandırın. Sağ akış açılan listesinden 'TripFaresSQL' öğesini seçin. Birleştirme türü olarak İç'i seçin. Eşleme veri akışındaki farklı birleştirme türleri hakkında daha fazla bilgi edinmek için bkz. birleştirme türleri.

    Birleştirme koşulları açılan listesi aracılığıyla her akıştan hangi sütunları eşleştirmek istediğinizi seçin. Ek birleştirme koşulu eklemek için var olan bir koşulun yanındaki artı simgesini seçin. Varsayılan olarak, tüm birleştirme koşulları and işleciyle birleştirilir ve bu da eşleşme için tüm koşulların karşılanması gerektiği anlamına gelir. Bu laboratuvarda , , hack_licensevendor_idve sütunlarında medallioneşleştirmek istiyoruzpickup_datetime

    Portala katılma 2

  3. Veri önizlemesiyle birlikte 25 sütuna başarıyla katıldığınızı doğrulayın.

    Portala katılma 3

payment_type göre toplama

  1. Birleştirme dönüşümünüzü tamamladıktan sonra ,'InnerJoinWithTripFares' öğesinin yanındaki artı simgesine tıklayarak bir toplu dönüştürme ekleyin. Şema değiştirici'nin altında Toplama'yı seçin.

    Portal agg 1

  2. Toplama dönüştürmenize 'AggregateByPaymentType' adını verin. Sütuna göre gruplandır'ı seçin payment_type .

    Portal agg 2

  3. Toplamlar sekmesine gidin. Burada iki toplama belirteceksiniz:

    • Ödeme türüne göre gruplandırılmış ortalama ücret
    • Ödeme türüne göre gruplandırılmış toplam seyahat mesafesi

    İlk olarak ortalama ücret ifadesini oluşturacaksınız. Sütun ekle veya seç etiketli metin kutusuna 'average_fare' yazın.

    Portal agg 3

  4. Toplama ifadesi girmek için İfadeyi girin etiketli mavi kutuyu seçin. Bu, giriş şemasını, yerleşik işlevleri ve işlemleri ve kullanıcı tanımlı parametreleri kullanarak veri akışı ifadelerini görsel olarak oluşturmak için kullanılan bir araç olan veri akışı ifade oluşturucusunu açar. İfade oluşturucusunun özellikleri hakkında daha fazla bilgi için ifade oluşturucu belgelerine bakın.

    Ortalama ücreti almak için toplama işlevini kullanarak avg() sütun atamasını total_amount ile toInteger()bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarak avg(toInteger(total_amount))tanımlanır. İşiniz bittiğinde Kaydet ve bitir'i seçin.

    Portal agg 4

  5. Ek bir toplama ifadesi eklemek için öğesinin yanındaki average_fareartı simgesini seçin. Sütun ekle'yi seçin.

    Portal agg 5

  6. Sütun ekle veya seç etiketli metin kutusuna 'total_trip_distance' yazın. Son adımda olduğu gibi ifadeye girmek için ifade oluşturucusunu açın.

    Toplam yolculuk uzaklığı elde etmek için toplama işlevini kullanarak sum() sütun atamasını trip_distance ile toInteger()bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarak sum(toInteger(trip_distance))tanımlanır. İşiniz bittiğinde Kaydet ve bitir'i seçin.

    Portal agg 6

  7. Veri Önizleme sekmesinde dönüştürme mantığınızı test edin. Gördüğünüz gibi, öncekinden çok daha az satır ve sütun var. Yalnızca bu dönüştürmede tanımlanan üç grup ve toplama sütunu aşağı akışa devam ediyor. Örnekte yalnızca beş ödeme türü grubu olduğundan yalnızca beş satır çıkarılır.

    Portal agg 7

Azure Synapse Analytics havuzu yapılandırma

  1. Dönüştürme mantığımızı tamamladığımıza göre verilerimizi bir Azure Synapse Analytics tablosuna aktarmaya hazırız. Hedef bölümünün altına bir havuz dönüşümü ekleyin.

    Portal havuzu 1

  2. Havuzunuza 'SQLDWSink' adını verin. Yeni bir Azure Synapse Analytics veri kümesi oluşturmak için havuz veri kümesi alanının yanındaki Yeni'yi seçin.

    Portal havuzu 2

  3. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.

    Portal havuzu 3

  4. Veri kümenizi 'AggregatedTaxiData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDW' öğesini seçin. Yeni tablo oluştur'u seçin ve yeni tabloyu dbo olarak adlandırın. AggregateTaxiData. Bitirdiğinizde Tamam'ı seçin

    Portal havuzu 4

  5. Havuzun Ayarlar sekmesine gidin. Yeni bir tablo oluşturduğumuz için tablo eyleminin altında Tabloyu yeniden oluştur'a ihtiyacımız var. Hazırlamayı etkinleştir'in seçimini kaldırın. Bu, satır satır veya toplu olarak eklememiz arasında geçiş yapar.

    Portal havuzu 5

Veri akışınızı başarıyla oluşturdunuz. Şimdi bunu bir işlem hattı etkinliğinde çalıştırmanın zamanı geldi.

İşlem hattınızda uçtan uca hata ayıklama

  1. IngestAndTransformData işlem hattının sekmesine Geri dön. 'IngestIntoADLS' kopyalama etkinliğindeki yeşil kutuya dikkat edin. 'JoinAndAggregateData' veri akışı etkinliğine sürükleyin. Bu, veri akışı etkinliğinin yalnızca kopya başarılı olduğunda çalışmasına neden olan bir 'başarılı olduğunda' oluşturur.

    Portal işlem hattı 1

  2. Kopyalama etkinliğinde yaptığımız gibi hata ayıklama çalıştırması yürütmek için Hata Ayıkla'yı seçin. Hata ayıklama çalıştırmaları için, veri akışı etkinliği yeni bir küme oluşturmak yerine etkin hata ayıklama kümesini kullanır. Bu işlem hattının yürütülmesi bir dakikadan biraz fazla sürer.

    Portal işlem hattı 2

  3. Kopyalama etkinliğinde olduğu gibi, veri akışında da etkinliğin tamamlanmasının ardından gözlük simgesi tarafından erişilen özel bir izleme görünümü vardır.

    Portal işlem hattı 3

  4. İzleme görünümünde, yürütme sürelerinin ve her yürütme aşamasındaki satırların yanı sıra basitleştirilmiş bir veri akışı grafiği görebilirsiniz. Doğru şekilde yapılırsa, bu etkinlikte 49.999 satırı beş satır halinde toplamanız gerekir.

    Portal işlem hattı 4

  5. Bölümleme bilgileri ve yeni/güncelleştirilmiş/bırakılan sütunlar gibi yürütmesiyle ilgili ek ayrıntılar almak için bir dönüştürme seçebilirsiniz.

    Portal işlem hattı 5

Şimdi bu laboratuvarın veri fabrikası bölümünü tamamladınız. Kaynaklarınızı tetikleyicilerle kullanıma hazır hale getirmek istiyorsanız yayımlayın. Kopyalama etkinliğini kullanarak Azure SQL Veritabanından Azure Data Lake Storage veri alan ve ardından bu verileri bir Azure Synapse Analytics'e toplayan bir işlem hattını başarıyla çalıştırdıysanız. verilerin başarıyla yazıldığını SQL Server bakarak doğrulayabilirsiniz.

Azure Veri Paylaşımı ile veri paylaşma

Bu bölümde, Azure portal kullanarak yeni bir veri paylaşımı ayarlamayı öğreneceksiniz. Bu, Azure Data Lake Store 2. Nesil ve Azure Synapse Analytics'ten veri kümeleri içeren yeni bir veri paylaşımı oluşturmayı içerir. Ardından, veri tüketicilerine kendileriyle paylaşılan verileri otomatik olarak yenileme seçeneği sunan bir anlık görüntü zamanlaması yapılandıracaksınız. Ardından alıcıları veri paylaşımınıza davet edersiniz.

Bir veri paylaşımı oluşturduktan sonra şapkaları değiştirip veri tüketicisi olursunuz. Veri tüketicisi olarak, veri paylaşımı davetini kabul etme, verilerin alınmasını istediğiniz yeri yapılandırma ve veri kümelerini farklı depolama konumlarına eşleme akışında ilerleyeceksiniz. Ardından, sizinle paylaşılan verileri belirtilen hedefe kopyalayan bir anlık görüntü tetikleyeceksiniz.

Veri paylaşma (Veri Sağlayıcısı akışı)

  1. Azure portal Microsoft Edge veya Google Chrome'da açın.

  2. Sayfanın en üstündeki arama çubuğunu kullanarak Veri Paylaşımları'nı arayın

    Portal reklamları

  3. Adında 'Sağlayıcı' bulunan veri paylaşımı hesabını seçin. Örneğin, DataProvider0102.

  4. Verilerinizi paylaşmaya başla'ya tıklayın

    Paylaşımı başlat

  5. Yeni veri paylaşımınızı yapılandırmaya başlamak için +Oluştur'u seçin.

  6. Paylaşım adı'nın altında, istediğiniz bir ad belirtin. Bu, veri tüketiciniz tarafından görülebilecek paylaşım adıdır, bu nedenle TaxiData gibi açıklayıcı bir ad verdiğinizden emin olun.

  7. Açıklama'nın altında, veri paylaşımının içeriğini açıklayan bir cümle girin. Veri paylaşımı, Azure Synapse Analytics ve Azure Data Lake Store gibi çeşitli mağazalarda depolanan dünya çapında taksi yolculuğu verilerini içerir.

  8. Kullanım koşulları'nın altında, veri tüketicinizin uymasını istediğiniz bir terim kümesi belirtin. Bazı örnekler şunlardır: "Bu verileri kuruluşunuzun dışına dağıtma" veya "Yasal sözleşmeye başvurun".

    Ayrıntıları paylaşma

  9. Devam’ı seçin.

  10. Veri kümesi ekle'yi seçin

    Veri kümesi ekleme 1

  11. ADF dönüşümlerinizin Azure Synapse Analytics'ten bir tablo seçmek için Azure Synapse Analytics'i seçin.

    Veri kümesi sql'i ekleme

  12. Devam etmeden önce çalıştırmanız gereken bir betik verilir. Sağlanan betik, Azure Veri Paylaşımı MSI'sinin kendi adına kimlik doğrulamasına izin vermek için SQL veritabanında bir kullanıcı oluşturur.

Önemli

Betiği çalıştırmadan önce, kendinizi SQL Server için Active Directory Yönetici olarak ayarlamanız gerekir.

  1. Yeni bir sekme açın ve Azure portal gidin. Veritabanında veri paylaşmak istediğiniz bir kullanıcı oluşturmak için sağlanan betiği kopyalayın. Bunu yapmak için Azure AD kimlik doğrulamasını kullanarak Sorgu Gezgini'ni (önizleme) kullanarak EDW veritabanında oturum açın.

    Betiği, oluşturulan kullanıcının köşeli ayraç içinde yer alacağız şekilde değiştirmeniz gerekir. Örn:

    dış oturum açmadan [dataprovider-xxxx] kullanıcısı oluşturma; exec sp_addrolemember db_owner, [dataprovider-xxxx];

  2. Veri paylaşımınıza veri kümeleri eklediğiniz Azure Veri Paylaşımı'a geri dönün.

  3. EDW'yi ve ardından tablo için AggregatedTaxiData'yı seçin.

  4. Veri kümesi ekle'yi seçin

    Artık veri kümemizin bir parçası olan bir SQL tablomuz var. Ardından Azure Data Lake Store'dan ek veri kümeleri ekleyeceğiz.

  5. Veri kümesi ekle'yi ve ardından Azure Data Lake Store 2. Nesil'i seçin

    Veri kümesi adl'leri ekleme

  6. İleri’yi seçin

  7. wwtaxidata'yı genişletin. Boston Taxi Data'nın kapsamını genişletin. Dosya düzeyine kadar paylaşabileceğinize dikkat edin.

  8. Klasörün tamamını veri paylaşımınıza eklemek için Boston Taxi Data klasörünü seçin.

  9. Veri kümesi ekle'yi seçin

  10. Eklenen veri kümelerini gözden geçirin. Veri paylaşımınıza eklenmiş bir SQL tablonuz ve ADLS 2. Nesil klasörünüz olmalıdır.

  11. Devam'ı seçin

  12. Bu ekranda, veri paylaşımınıza alıcı ekleyebilirsiniz. Eklediğiniz alıcılar, veri paylaşımınıza davet alır. Bu laboratuvarın amacı doğrultusunda 2 e-posta adresi eklemeniz gerekir:

    1. Içinde olduğunuz Azure aboneliğinin e-posta adresi.

      Alıcı ekleme

    2. adlı janedoe@fabrikam.comkurgusal veri tüketicisine ekleyin.

  13. Bu ekranda, veri tüketiciniz için bir Anlık Görüntü Ayarı yapılandırabilirsiniz. Bu, verilerinizin düzenli güncelleştirmelerini sizin tarafınızdan tanımlanan bir aralıkta almalarını sağlar.

  14. Anlık Görüntü Zamanlamasını denetleyin ve Yinelenme açılan listesini kullanarak verilerinizin saatlik yenilemesini yapılandırın.

  15. Oluştur’u seçin.

    Artık etkin bir veri paylaşımınız var. Veri paylaşımı oluştururken veri sağlayıcısı olarak görebileceklerinizi gözden geçirebilirsiniz.

  16. Oluşturduğunuz DataProvider adlı veri paylaşımını seçin. Veri Paylaşımı'da Gönderilmiş Paylaşımlar'ı seçerek bu paylaşıma gidebilirsiniz.

  17. Anlık görüntü zamanlaması'nı seçin. İsterseniz anlık görüntü zamanlamasını devre dışı bırakabilirsiniz.

  18. Ardından Veri Kümeleri sekmesini seçin. Oluşturulduktan sonra bu veri paylaşımına ek veri kümeleri ekleyebilirsiniz.

  19. Abonelikleri paylaş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden henüz paylaşım aboneliği yok.

  20. Davetler sekmesine gidin. Burada bekleyen davetlerin listesini görürsünüz.

    Bekleyen davetler

  21. için daveti janedoe@fabrikam.comseçin. Sil’i seçin. Alıcınız daveti henüz kabul etmediyse, artık bunu yapamaz.

  22. Geçmiş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden ve anlık görüntü tetiklediğinden henüz hiçbir şey görüntülenmez.

Veri alma (Veri tüketici akışı)

Veri paylaşımımızı incelediğimize göre artık bağlamı değiştirmeye ve veri tüketici şapkamızı takmaya hazırız.

Artık Microsoft Azure'dan gelen kutunuzda bir Azure Veri Paylaşımı daveti olmalıdır. Outlook Web Access'i (outlook.com) başlatın ve Azure aboneliğiniz için sağlanan kimlik bilgilerini kullanarak oturum açın.

Almış olmanız gereken e-postada "Daveti >görüntüle" seçeneğini belirleyin. Bu noktada, veri sağlayıcılarının veri paylaşımı davetini kabul ederken veri tüketicisi deneyiminin simülasyonunu yapacaksınız.

daveti Email

Bir abonelik seçmeniz istenebilir. Bu laboratuvar için üzerinde çalıştığınız aboneliği seçtiğinizden emin olun.

  1. DataProvider adlı davette öğesini seçin.

  2. Bu Davet ekranında, daha önce bir veri sağlayıcısı olarak yapılandırdığınız veri paylaşımı hakkında çeşitli ayrıntılar göreceksiniz. Ayrıntıları gözden geçirin ve varsa kullanım koşullarını kabul edin.

  3. Laboratuvarınız için zaten var olan Abonelik ve Kaynak Grubunu seçin.

  4. Veri paylaşımı hesabı için DataConsumer'ı seçin. Yeni bir veri paylaşımı hesabı da oluşturabilirsiniz.

  5. Alınan paylaşım adı'nın yanında, varsayılan paylaşım adının veri sağlayıcısı tarafından belirtilen ad olduğunu fark edeceksiniz. Paylaşıma, almak üzere olduğunuz verileri açıklayan kolay bir ad verin; örneğin TaxiDataShare.

    Davet kabul eder

  6. Şimdi kabul et ve yapılandır'ı veya Daha sonra kabul et ve yapılandır'ı seçebilirsiniz. Şimdi kabul edip yapılandırmayı seçerseniz, tüm verilerin kopyalanması gereken bir depolama hesabı belirtirsiniz. Daha sonra kabul edip yapılandırmayı seçerseniz, paylaşımdaki veri kümeleri eşlenmez ve bunları el ile eşlemeniz gerekir. Bunu daha sonra tercih edeceğiz.

  7. Kabul Et'i seçin ve daha sonra yapılandırın.

    Bu seçeneği yapılandırırken bir paylaşım aboneliği oluşturulur, ancak hiçbir hedef eşlenmediğinden verilerin ineceği yer yoktur.

    Ardından veri paylaşımı için veri kümesi eşlemelerini yapılandıracağız.

  8. Alınan Paylaşım'ı (5. adımda belirttiğiniz ad) seçin.

    Tetikleyici anlık görüntüsü gridir, ancak paylaşım Etkin'dir.

  9. Veri kümeleri sekmesini seçin. Her veri kümesinin Eşlenmemiş olduğuna dikkat edin; başka bir deyişle veri kopyalama hedefi yoktur.

    eşlenmemiş veri kümeleri

  10. Azure Synapse Analytics Tablosu'nu ve ardından + Hedefle Eşle'yi seçin.

  11. Ekranın sağ tarafında Hedef Veri Türü açılan listesini seçin.

    SQL verilerini çok çeşitli veri depolarına eşleyebilirsiniz. Bu durumda bir Azure SQL Veritabanına eşleyeceğiz.

    eşleme

    (İsteğe bağlı) Hedef veri türü olarak Azure Data Lake Store 2. Nesil'i seçin.

    (İsteğe bağlı) Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.

    (İsteğe bağlı) Verileri csv veya parquet biçiminde veri gölünüze almayı seçebilirsiniz.

  12. Hedef veri türü'nin yanında Veritabanı'Azure SQL'ı seçin.

  13. Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.

    sql'e eşle

  14. Devam etmeden önce, sağlanan betiği çalıştırarak SQL Server yeni bir kullanıcı oluşturmanız gerekir. İlk olarak, sağlanan betiği panonuza kopyalayın.

  15. Yeni bir Azure portal sekmesi açın. Var olan sekmenizi kapatmayın çünkü hemen geri dönmeniz gerekir.

  16. Açtığınız yeni sekmede SQL veritabanları'na gidin.

  17. SQL veritabanını seçin (aboneliğinizde yalnızca bir veritabanı olmalıdır). Veri ambarını seçmemeye dikkat edin.

  18. Sorgu düzenleyicisi 'ni seçin (önizleme)

  19. Sorgu düzenleyicisinde oturum açmak için Azure AD kimlik doğrulamasını kullanın.

  20. Veri paylaşımınızda sağlanan sorguyu çalıştırın (14. adımda panoya kopyalanır).

    Bu komut, Azure Veri Paylaşımı hizmetinin SQL Server kimlik doğrulaması yapmak için Azure Hizmetleri için Yönetilen Kimlikler'i kullanarak verilere veri kopyalamasını sağlar.

  21. Özgün sekmeye Geri dön ve Hedefe eşle'yi seçin.

  22. Ardından, veri kümesinin parçası olan Azure Data Lake 2. Nesil klasörünü seçin ve bir Azure Blob Depolama hesabıyla eşleyin.

    Depolama

    Tüm veri kümeleri eşlendiğinde artık veri sağlayıcısından veri almaya başlayabilirsiniz.

    Eşlenmiş

  23. Ayrıntılar'ı seçin.

    Veri paylaşımında artık kopyalanacak hedefler bulunduğundan Tetikleyici anlık görüntüsünün artık gri olmadığına dikkat edin.

  24. Tetikleyici anlık görüntüsü -> Tam Kopya'yı seçin.

    Tetikleyici

    Bu işlem verileri yeni veri paylaşımı hesabınıza kopyalamaya başlar. Gerçek bir senaryoda bu veriler üçüncü taraflardan geliyor olabilir.

    Verilerin karşı karşıya gelmesi yaklaşık 3-5 dakika sürer. Geçmiş sekmesine tıklayarak ilerleme durumunu izleyebilirsiniz.

    Beklerken özgün veri paylaşımına (DataProvider) gidin ve Abonelikleri ve Geçmişi Paylaş sekmesinin durumunu görüntüleyin. Artık etkin bir abonelik olduğuna dikkat edin ve veri sağlayıcısı olarak, veri tüketicisinin kendisiyle paylaşılan verileri almaya ne zaman başladığını da izleyebilirsiniz.

  25. Veri tüketicisinin veri paylaşımına geri gidin. Tetikleyicinin durumu başarılı olduktan sonra, verilerin ilgili depolara indiğini görmek için hedef SQL veritabanına ve data lake'e gidin.

Tebrikler, laboratuvarı tamamladınız!