Azure Data Factory ve Azure Veri Paylaşımı kullanarak veri tümleştirmesi

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Müşteriler modern veri ambarı ve analiz projelerine başladıkça, yalnızca daha fazla veriye değil, aynı zamanda veri varlıklarında da daha fazla görünürlüğe ihtiyaç duyarlar. Bu atölyede Azure Data Factory ve Azure'da yapılan iyileştirmeler Veri Paylaşımı Azure'da veri tümleştirmesini ve yönetimini nasıl kolaylaştıracakları ele alınıyor.

Kodsuz ETL/ELT'yi etkinleştirmeden verileriniz üzerinde kapsamlı bir görünüm oluşturmaya kadar Azure Data Factory'deki geliştirmeler, veri mühendislerinizin kuruluşunuza güvenle daha fazla veri ve dolayısıyla daha fazla değer getirmesini sağlar. Azure Veri Paylaşımı iş paylaşımını idareli bir şekilde yapmanıza olanak tanır.

Bu atölyede Azure Data Factory'yi (ADF) kullanarak verileri Azure SQL Veritabanı Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil) içine alacağız. Verileri göle indirdikten sonra eşleme veri akışları, veri fabrikasının yerel dönüştürme hizmeti aracılığıyla dönüştürecek ve Azure Synapse Analytics'e aktaracaksınız. Ardından, Azure Veri Paylaşımı kullanarak tabloyu dönüştürülmüş verilerle ve bazı ek verilerle paylaşacaksınız.

Bu laboratuvarda kullanılan veriler New York City taksi verileridir. SQL Veritabanı veritabanınıza aktarmak için taxi-data bacpac dosyasını indirin. GitHub'da Ham dosyayı indir seçeneğini belirleyin.

Önkoşullar

  • Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

  • Azure SQL Veritabanı: Azure SQL Veritabanı yoksa SQL Veritabanı oluşturmayı öğrenin.

  • Azure Data Lake Storage 2. Nesil depolama hesabı: ADLS 2. Nesil depolama hesabınız yoksa ADLS 2. Nesil depolama hesabı oluşturmayı öğrenin.

  • Azure Synapse Analytics: Azure Synapse Analytics çalışma alanınız yoksa Azure Synapse Analytics'i kullanmaya başlamayı öğrenin.

  • Azure Data Factory: Henüz bir veri fabrikası oluşturmadıysanız bkz . Veri fabrikası oluşturma.

  • Azure Veri Paylaşımı: Veri paylaşımı oluşturmadıysanız bkz. Veri paylaşımı oluşturma.

Azure Data Factory ortamınızı ayarlama

Bu bölümde, Azure portalından Azure Data Factory kullanıcı deneyimine (ADF UX) erişmeyi öğreneceksiniz. ADF UX'ye girdikten sonra, kullanmakta olduğumuz veri depolarının her biri için üç bağlı hizmet yapılandıracaksınız: Azure SQL Veritabanı, ADLS 2. Nesil ve Azure Synapse Analytics.

Azure Data Factory bağlı hizmetlerinde dış kaynaklara bağlantı bilgilerini tanımlayın. Azure Data Factory şu anda 85'in üzerinde bağlayıcıyı desteklemektedir.

Azure Data Factory UX'yi açma

  1. Azure portalını Microsoft Edge veya Google Chrome'da açın.

  2. Sayfanın üst kısmındaki arama çubuğunu kullanarak 'Veri Fabrikaları' araması yapın.

  3. Veri fabrikası kaynağınızı seçerek kaynaklarını sol bölmede açın.

    Screenshot from the Azure portal of a data factories overview page.

  4. Azure Data Factory Studio'yu Aç'ı seçin. Data Factory Studio'ya doğrudan adf.azure.com de erişilebilir.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. Azure portalında ADF'nin giriş sayfasına yönlendirilirsiniz. Bu sayfa hızlı başlangıçlar, yönerge videoları ve veri fabrikası kavramlarını öğrenmek için öğreticilere bağlantılar içerir. Yazmaya başlamak için sol taraftaki çubuktaki kalem simgesini seçin.

    Screenshot from the Azure portal of Portal configure.

Azure SQL Veritabanı bağlı hizmeti oluşturma

  1. Bağlı hizmet oluşturmak için sol taraftaki çubukta Hub'ı yönet'i seçin, Bağlan ions bölmesinde Bağlı hizmetler'i seçin ve yeni bir bağlı hizmet eklemek için Yeni'yi seçin.

    Screenshot from the Azure portal of creating a new linked service.

  2. Yapılandırdığınız ilk bağlı hizmet bir Azure SQL Veritabanı. Veri deposu listesini filtrelemek için arama çubuğunu kullanabilirsiniz. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin.

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. SQL Veritabanı yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDB' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Azure Synapse Analytics bağlı hizmeti oluşturma

  1. Azure Synapse Analytics bağlı hizmeti eklemek için aynı işlemi yineleyin. Bağlantılar sekmesinde Yeni'yi seçin. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDW' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturma

  1. Bu laboratuvar için gereken son bağlı hizmet bir Azure Data Lake Storage 2. Nesil. Bağlantılar sekmesinde Yeni'yi seçin. Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve devam'ı seçin.

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'ADLSGen2' girin. Hesap anahtarı kimlik doğrulaması kullanıyorsanız, Depolama hesap adı açılan listesinden ADLS 2. Nesil depolama hesabınızı seçin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Veri akışı hata ayıklama modunu açma

Eşleme veri akışını kullanarak verileri dönüştürme bölümünde eşleme veri akışları oluşturuyorsunuz. Eşleme veri akışları oluşturmadan önce en iyi yöntem, etkin spark kümesinde dönüştürme mantığını saniyeler içinde test etmenizi sağlayan hata ayıklama modunu açmaktır.

Hata ayıklamayı açmak için Veri akışı etkinlikleriniz olduğunda veri akışı tuvalinin veya işlem hattı tuvalinin üst çubuğundaki Veri akışı hata ayıklama kaydırıcısını seçin. Onay iletişim kutusu gösterildiğinde Tamam'ı seçin. Küme yaklaşık 5-7 dakika içinde başlar. Başlarken kopyalama etkinliğini kullanarak verileri Azure SQL Veritabanı'den ADLS 2. Nesil'e almaya devam edin.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Kopyalama etkinliğini kullanarak veri alma

Bu bölümde, bir Azure SQL Veritabanı adls 2. nesil depolama hesabına bir tablo alan kopyalama etkinliğine sahip bir işlem hattı oluşturacaksınız. ADF UX aracılığıyla işlem hattı eklemeyi, veri kümesini yapılandırmayı ve işlem hattında hata ayıklamayı öğrenirsiniz. Bu bölümde kullanılan yapılandırma düzeni, ilişkisel bir veri deposundan dosya tabanlı veri deposuna kopyalamaya uygulanabilir.

Azure Data Factory'de işlem hattı, bir görevi birlikte gerçekleştiren etkinliklerin mantıksal bir gruplandırmasıdır. Etkinlik, verileriniz üzerinde gerçekleştirilecek bir işlemi tanımlar. Veri kümesi, bağlı bir hizmette kullanmak istediğiniz verileri gösterir.

Kopyalama etkinliğiyle işlem hattı oluşturma

  1. Fabrika kaynakları bölmesinde artı simgesini seçerek yeni kaynak menüsünü açın. İşlem Hattı'nı seçin.

    Screenshot from the Azure portal of creating a new pipeline.

  2. İşlem hattı tuvalinin Genel sekmesinde, işlem hattınıza 'IngestAndTransformTaxiData' gibi açıklayıcı bir ad verin.

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Verileri kopyala etkinliğini tuvale sürükleyin. Kopyalama etkinliğine 'IngestIntoADLS' gibi açıklayıcı bir ad verin.

    Screenshot from the Azure portal of adding a copy data step.

Azure SQL DB kaynak veri kümesini yapılandırma

  1. Kopyalama etkinliğinin Kaynak sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin. Kaynağınız, daha önce yapılandırılan 'SQLDB' bağlı hizmetinde bulunan tablo dbo.TripData olacaktır.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Azure SQL Veritabanı arayın ve Devam'ı seçin.

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Veri kümenizi 'TripData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDB' öğesini seçin. Tablo adı dbo.TripData açılan listesinden tablo adını seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Tamamlanınca Tamam'ı seçin.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

Kaynak veri kümenizi başarıyla oluşturdunuz. Kaynak ayarlarında, kullanım sorgusu alanında Tablo varsayılan değerinin seçildiğinden emin olun.

ADLS 2. Nesil havuz veri kümesini yapılandırma

  1. Kopyalama etkinliğinin Havuz sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Azure Data Lake Storage 2. Nesil arayın ve Devam'ı seçin.

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. Biçim seç bölmesinde, csv dosyasına yazarken Sınırlanmış Metin'i seçin. Devam'ı seçin.

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Havuz veri kümenize 'TripDataCSV' adını verin. Bağlı hizmetiniz olarak 'ADLSGen2' öğesini seçin. Csv dosyanızı yazmak istediğiniz yeri girin. Örneğin, kapsayıcısında staging-containerdosyaya trip-data.csv verilerinizi yazabilirsiniz. Çıktı verilerinizin üst bilgi olmasını istediğiniz şekilde İlk satırı üst bilgi olarak true olarak ayarlayın. Henüz hedefte dosya olmadığından Şemayı içeri aktar'ı Yok olarak ayarlayın. Tamamlanınca Tamam'ı seçin.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

İşlem hattı hata ayıklama çalıştırmasıyla kopyalama etkinliğini test edin

  1. Kopyalama etkinliğinizin düzgün çalıştığını doğrulamak için işlem hattı tuvalinin üst kısmındaki Hata Ayıkla'yı seçerek bir hata ayıklama çalıştırması yürütebilirsiniz. Hata ayıklama çalıştırması, işlem hattınızı veri fabrikası hizmetinde yayımlamadan önce uçtan uca veya bir kesme noktasına kadar test etmenizi sağlar.

    Screenshot from the Azure portal of the debug button.

  2. Hata ayıklama çalıştırmanızı izlemek için işlem hattı tuvalinin Çıkış sekmesine gidin. İzleme ekranı her 20 saniyede bir veya yenile düğmesini el ile seçtiğinizde otomatik olarak yeniden başlatılır. Kopyalama etkinliği, Eylemler sütunundaki göz gözlükleri simgesi seçilerek erişilebilen özel bir izleme görünümüne sahiptir.

    Screenshot from the Azure portal of the monitoring button.

  3. Kopyalama izleme görünümü, etkinliğin yürütme ayrıntılarını ve performans özelliklerini verir. Okunan/yazılan veriler, okunan/yazılan satırlar, okunan/yazılan dosyalar ve aktarım hızı gibi bilgileri görebilirsiniz. Her şeyi doğru yapılandırdıysanız, ADLS havuzunuzda bir dosyaya yazılmış 49.999 satır görmeniz gerekir.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Sonraki bölüme geçmeden önce, fabrika üst çubuğunda Tümünü yayımla'yı seçerek değişikliklerinizi veri fabrikası hizmetinde yayımlamanız önerilir. Bu laboratuvarda ele alınmasa da Azure Data Factory tam git tümleştirmesini destekler. Git tümleştirmesi sürüm denetimine, depoda yinelemeli kaydetmeye ve veri fabrikasında işbirliğine olanak tanır. Daha fazla bilgi için bkz . Azure Data Factory'de kaynak denetimi.

    Screenshot from the Azure portal of the publish all button.

Veri akışlarını eşlemeyi kullanarak verileri dönüştürme

Verileri Azure Data Lake Depolama'a başarıyla kopyaladığınıza göre, bu verileri bir veri ambarı içinde birleştirmenin ve toplamanın zamanı geldi. Azure Data Factory'nin görsel olarak tasarlanmış dönüştürme hizmeti olan eşleme veri akışını kullanırız. Eşleme veri akışları, kullanıcıların dönüştürme mantığını kodsuz olarak geliştirmesine ve bunları ADF hizmeti tarafından yönetilen Spark kümelerinde yürütmesine olanak tanır.

Bu adımda oluşturulan veri akışı iç, önceki bölümde oluşturulan 'TripDataCSV' veri kümesini dört anahtar sütuna göre 'SQLDB' içinde depolanan bir tabloyla dbo.TripFares birleştirir. Ardından veriler, belirli alanların ortalamasını hesaplamak için sütuna payment_type göre toplanır ve bir Azure Synapse Analytics tablosuna yazılır.

İşlem hattınıza veri akışı etkinliği ekleme

  1. İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Veri akışı etkinliğini tuvale sürükleyin.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. Açılan yan bölmede Yeni veri akışı oluştur'u ve ardından Eşleme veri akışı'nı seçin. Tamam seçeneğini işaretleyin.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. Dönüştürme mantığınızı oluşturabileceğiniz veri akışı tuvaline yönlendirilirsiniz. Genel sekmesinde veri akışınıza 'JoinAndAggregateData' adını verin.

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

Seyahat verilerinizin CSV kaynağını yapılandırma

  1. yapmak istediğiniz ilk şey, iki kaynak dönüşümünüzü yapılandırmaktır. İlk kaynak, 'TripDataCSV' DelimitedText veri kümesini gösterir. Kaynak dönüşümü eklemek için tuvaldeki Kaynak Ekle kutusunu seçin.

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Kaynağınıza 'TripDataCSV' adını verin ve kaynak açılan listesinden 'TripDataCSV' veri kümesini seçin. Hatırlarsanız, bu veri kümesini oluştururken başlangıçta bir şema içeri aktarmadınız çünkü orada veri yoktu. Artık mevcut olduğundantrip-data.csv, veri kümesi ayarları sekmesine gitmek için Düzenle'yi seçin.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Şema sekmesine gidin ve Şemayı içeri aktar'ı seçin. Doğrudan dosya deposundan içeri aktarmak için Bağlantıdan/depodan'ı seçin. Dize türünde 14 sütun görünmelidir.

    Screenshot from the Azure portal of the schema source selection.

  4. 'JoinAndAggregateData' veri akışına geri dönün. Hata ayıklama kümeniz başlatıldıysa (hata ayıklama kaydırıcısının yanındaki yeşil daireyle gösterilir), Veri Önizleme sekmesinde verilerin anlık görüntüsünü alabilirsiniz. Veri önizlemesini getirmek için Yenile'yi seçin.

    Screenshot from the Azure portal of the data flow preview.

Dekont

Veri önizlemesi veri yazmaz.

Seyahat ücretlerinizi SQL Veritabanı kaynağınızı yapılandırma

  1. SQL Veritabanı tablosuna dbo.TripFarespuan eklediğiniz ikinci kaynaktır. 'TripDataCSV' kaynağınızın altında başka bir Kaynak Ekle kutusu vardır. Yeni bir kaynak dönüşümü eklemek için bunu seçin.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Bu kaynağa 'TripFaresSQL' adını verin. Yeni bir SQL Veritabanı veri kümesi oluşturmak için kaynak veri kümesi alanının yanındaki Yeni'yi seçin.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin. Veri fabrikasındaki bağlayıcıların çoğunun eşleme veri akışında desteklenmediğini fark edebilirsiniz. Verileri bu kaynaklardan birinden dönüştürmek için kopyalama etkinliğini kullanarak desteklenen bir kaynağa alın.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Veri kümenizi 'TripFares' olarak çağır. Bağlı hizmetiniz olarak 'SQLDB' öğesini seçin. Tablo adı dbo.TripFares açılan listesinden tablo adını seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Tamamlanınca Tamam'ı seçin.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Verilerinizi doğrulamak için Veri Önizleme sekmesinde bir veri önizlemesi getirin.

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

İç birleşim TripDataCSV ve TripFaresSQL

  1. Yeni dönüşüm eklemek için 'TripDataCSV' öğesinin sağ alt köşesindeki artı simgesini seçin. Birden çok giriş/çıkış altında Katıl'ı seçin.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Birleştirme dönüşümünüzü 'InnerJoinWithTripFares' olarak adlandırın. Sağ akış açılan listesinden 'TripFaresSQL' öğesini seçin. Birleştirme türü olarak İç'i seçin. Eşleme veri akışındaki farklı birleştirme türleri hakkında daha fazla bilgi edinmek için bkz . birleştirme türleri.

    Birleştirme koşulları açılan listesi aracılığıyla her akıştan hangi sütunları eşleştirmek istediğinizi seçin. Ek birleştirme koşulu eklemek için, var olan bir koşulun yanındaki artı simgesini seçin. Varsayılan olarak, tüm birleştirme koşulları bir AND işleciyle birleştirilir ve bu da eşleşme için tüm koşulların karşılanması gerektiği anlamına gelir. Bu laboratuvarda , , hack_licensevendor_idve sütunlarında medallioneşleştirmek istiyoruzpickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Veri önizlemesiyle birlikte 25 sütunu başarıyla birleştirdiğinizden emin olun.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

payment_type göre toplama

  1. Birleştirme dönüştürmenizi tamamladıktan sonra InnerJoinWithTripFares'in yanındaki artı simgesini seçerek bir toplama dönüşümü ekleyin. Şema değiştirici'nin altında Toplama'yı seçin.

    Screenshot from the Azure portal of the new aggregate button.

  2. Toplu dönüştürmenize 'AggregateByPaymentType' adını verin. Sütuna göre gruplandır'ı seçin payment_type .

    Screenshot from the Azure portal of aggregate settings.

  3. Toplamlar sekmesine gidin. İki toplama belirtin:

    • Ödeme türüne göre gruplandırılmış ortalama ücret
    • Ödeme türüne göre gruplandırılmış toplam seyahat uzaklığı

    İlk olarak ortalama ücret ifadesini oluşturacaksınız. Sütun ekle veya seç etiketli metin kutusuna 'average_fare' yazın.

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Toplama ifadesi girmek için Enter ifadesi etiketli mavi kutuyu seçin. Bu kutu, veri akışı ifade oluşturucusunu, giriş şemasını, yerleşik işlevleri ve işlemleri ve kullanıcı tanımlı parametreleri kullanarak veri akışı ifadelerini görsel olarak oluşturmak için kullanılan aracı açar. İfade oluşturucusunun özellikleri hakkında daha fazla bilgi için ifade oluşturucu belgelerine bakın.

    Ortalama ücreti almak için toplama işlevini kullanarak avg() sütun atamasını total_amount ile toInteger()bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarak avg(toInteger(total_amount))tanımlanır. Kaydet'i seçin ve işiniz bittiğinde bitirin .

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. Ek bir toplama ifadesi eklemek için öğesinin yanındaki average_fareartı simgesini seçin. Sütun ekle'yi seçin.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. Sütun ekle veya seç etiketli metin kutusuna 'total_trip_distance' yazın. Son adımda olduğu gibi ifadeye girmek için ifade oluşturucusunu açın.

    Toplam yolculuk uzaklığı elde etmek için toplama işlevini kullanarak sum() sütun atamasını trip_distance ile toInteger()bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarak sum(toInteger(trip_distance))tanımlanır. Kaydet'i seçin ve işiniz bittiğinde bitirin .

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Veri Önizleme sekmesinde dönüştürme mantığınızı test edin. Gördüğünüz gibi, öncekinden çok daha az satır ve sütun vardır. Yalnızca bu dönüştürmede tanımlanan üç grup ve toplama sütunu aşağı akışa devam ediyor. Örnekte yalnızca beş ödeme türü grubu olduğundan yalnızca beş satır çıkarılır.

    Screenshot from the Azure portal of aggregate data preview.

Azure Synapse Analytics havuzu yapılandırma

  1. Dönüştürme mantığımızı tamamladığımıza göre verilerimizi bir Azure Synapse Analytics tablosuna batırmaya hazırız. Hedef bölümünün altına bir havuz dönüşümü ekleyin.

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Havuzunuza 'SQLDWSink' adını verin. Yeni bir Azure Synapse Analytics veri kümesi oluşturmak için havuz veri kümesi alanının yanındaki Yeni'yi seçin.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Veri kümenizi 'AggregatedTaxiData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDW' öğesini seçin. Yeni tablo oluştur'u seçin ve yeni tabloyu dbo.AggregateTaxiDataolarak adlandırın. Tamamlanınca Tamam'ı seçin.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Havuzun Ayarlar sekmesine gidin. Yeni bir tablo oluşturduğumuz için tablo eyleminin altında Tabloyu yeniden oluştur'a ihtiyacımız var. Hazırlamayı etkinleştir'in seçimini kaldırın; bu, satır satır veya toplu olarak eklememiz arasında geçiş yapar.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

Veri akışınızı başarıyla oluşturdunuz. Şimdi bunu bir işlem hattı etkinliğinde çalıştırmanın zamanı geldi.

İşlem hattınızda uçtan uca hata ayıklama

  1. IngestAndTransformData işlem hattının sekmesine geri dönün. 'IngestIntoADLS' kopyalama etkinliğindeki yeşil kutuya dikkat edin. 'JoinAndAggregateData' veri akışı etkinliğine sürükleyin. Bu, veri akışı etkinliğinin yalnızca kopya başarılı olduğunda çalışmasına neden olan bir 'başarıda' oluşturur.

    Screenshot from the Azure portal of a green success pipeline.

  2. Kopyalama etkinliğinde yaptığımız gibi, hata ayıklama çalıştırması yürütmek için Hata Ayıkla'yı seçin. Hata ayıklama çalıştırmaları için veri akışı etkinliği, yeni bir küme oluşturmak yerine etkin hata ayıklama kümesini kullanır. Bu işlem hattının yürütülmesi bir dakikadan biraz fazla sürer.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. Kopyalama etkinliğinde olduğu gibi, veri akışında da etkinliğin tamamlanmasının ardından gözlük simgesi tarafından erişilen özel bir izleme görünümü vardır.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. İzleme görünümünde, her yürütme aşamasında yürütme süreleri ve satırlarla birlikte basitleştirilmiş bir veri akışı grafiği görebilirsiniz. Doğru şekilde yapılırsa, bu etkinlikte 49.999 satırı beş satır halinde toplamış olmanız gerekir.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. Bölümleme bilgileri ve yeni/güncelleştirilmiş/bırakılan sütunlar gibi yürütmesiyle ilgili ek ayrıntılar almak için bir dönüştürme seçebilirsiniz.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

Şimdi bu laboratuvarın veri fabrikası bölümünü tamamladınız. Kaynaklarınızı tetikleyicilerle kullanıma hazır hale getirmek istiyorsanız yayımlayın. Kopyalama etkinliğini kullanarak verileri Azure SQL Veritabanı Azure Data Lake Depolama alan ve ardından bu verileri Azure Synapse Analytics'e toplayan bir işlem hattını başarıyla çalıştırdıysanız. SQL Server'ın kendisine bakarak verilerin başarıyla yazıldığını doğrulayabilirsiniz.

Azure Veri Paylaşımı ile veri paylaşma

Bu bölümde, Azure portalını kullanarak yeni bir veri paylaşımı ayarlamayı öğreneceksiniz. Bu, Azure Data Lake Storage 2. Nesil ve Azure Synapse Analytics'ten veri kümeleri içeren yeni bir veri paylaşımı oluşturmayı içerir. Ardından, veri tüketicilerine kendileriyle paylaşılan verileri otomatik olarak yenileme seçeneği sunan bir anlık görüntü zamanlaması yapılandıracaksınız. Ardından alıcıları veri paylaşımınıza davet edersiniz.

Bir veri paylaşımı oluşturduktan sonra şapkaları değiştirip veri tüketicisi olursunuz. Veri tüketicisi olarak, veri paylaşımı davetini kabul etme, verilerin alınmasını istediğiniz yeri yapılandırma ve veri kümelerini farklı depolama konumlarıyla eşleme akışında ilerleyeceksiniz. Ardından, sizinle paylaşılan verileri belirtilen hedefe kopyalayan bir anlık görüntü tetikleyeceksiniz.

Veri paylaşma (Veri Sağlayıcısı akışı)

  1. Azure portalını Microsoft Edge veya Google Chrome'da açın.

  2. Sayfanın üst kısmındaki arama çubuğunu kullanarak Veri Paylaşımı arama

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. Adında 'Sağlayıcı' bulunan veri paylaşımı hesabını seçin. Örneğin, DataProvider0102.

  4. Verilerinizi paylaşmayı başlat'ı seçin

    Screenshot from the Azure portal of the start sharing your data button.

  5. Yeni veri paylaşımınızı yapılandırmaya başlamak için +Oluştur'u seçin.

  6. Paylaşım adı'nın altında, istediğiniz bir ad belirtin. Bu, veri tüketiciniz tarafından görülebilecek paylaşım adıdır, bu nedenle TaxiData gibi açıklayıcı bir ad verdiğinizden emin olun.

  7. Açıklama'nın altında, veri paylaşımının içeriğini açıklayan bir tümce girin. Veri paylaşımı, Azure Synapse Analytics ve Azure Data Lake Depolama gibi çeşitli mağazalarda depolanan dünya çapında taksi yolculuğu verilerini içerir.

  8. Kullanım koşulları altında, veri tüketicinizin uymasını istediğiniz bir terim kümesi belirtin. Bazı örnekler şunlardır: "Bu verileri kuruluşunuzun dışına dağıtma" veya "Yasal sözleşmeye bakın".

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Devam'ı seçin.

  10. Veri kümesi ekle'yi seçin

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Azure Synapse Analytics'ten ADF dönüşümlerinizin indi olduğu bir tablo seçmek için Azure Synapse Analytics'i seçin.

  12. Devam etmeden önce çalıştırmanız gereken bir betik verilir. Sağlanan betik, Azure Veri Paylaşımı MSI'sinin kendi adına kimlik doğrulamasına izin vermek için SQL veritabanında bir kullanıcı oluşturur.

    Önemli

    Betiği çalıştırmadan önce, kendinizi Azure SQL Veritabanı mantıksal SQL sunucusu için Active Directory Yönetici olarak ayarlamanız gerekir.

  13. Yeni bir sekme açın ve Azure portalına gidin. Veritabanında veri paylaşmak istediğiniz bir kullanıcı oluşturmak için sağlanan betiği kopyalayın. Bunu yapmak için Microsoft Entra kimlik doğrulamasını kullanarak Azure portal Sorgu düzenleyicisini kullanarak EDW veritabanında oturum açın. Kullanıcıyı aşağıdaki örnek betikte değiştirmeniz gerekir:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Veri paylaşımınıza veri kümeleri eklediğiniz Azure Veri Paylaşımı geri dönün.

  15. EDW'yi ve ardından tablo için AggregatedTaxiData'yı seçin.

  16. Veri kümesi ekle'yi seçin

    Artık veri kümemizin parçası olan bir SQL tablomuz var. Ardından Azure Data Lake Depolama'dan ek veri kümeleri ekleyeceğiz.

  17. Veri kümesi ekle'yi seçin ve Azure Data Lake Storage 2. Nesil

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. İleri'yi seçin

  19. wwtaxidata öğesini genişletin. Boston Taxi Data'nın kapsamını genişletin. Dosya düzeyine kadar paylaşabilirsiniz.

  20. Klasörün tamamını veri paylaşımınıza eklemek için Boston Taxi Data klasörünü seçin.

  21. Veri kümesi ekle'yi seçin

  22. Eklenen veri kümelerini gözden geçirin. Veri paylaşımınıza eklenmiş bir SQL tablonuz ve ADLS 2. Nesil klasörünüz olmalıdır.

  23. Devam'ı seçin

  24. Bu ekranda, veri paylaşımınıza alıcı ekleyebilirsiniz. Eklediğiniz alıcılar, veri paylaşımınıza davetler alır. Bu laboratuvarın amacı doğrultusunda iki e-posta adresi eklemeniz gerekir:

    1. Içinde olduğunuz Azure aboneliğinin e-posta adresi.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. adlı janedoe@fabrikam.comkurgusal veri tüketicisine ekleyin.

  25. Bu ekranda, veri tüketiciniz için bir Anlık Görüntü Ayarı yapılandırabilirsiniz. Bu, verilerinizin sizin tarafınızdan tanımlanan bir aralıkta düzenli güncelleştirmelerini almalarını sağlar.

  26. Anlık Görüntü Zamanlamasını denetleyin ve Yinelenme açılan listesini kullanarak verilerinizin saatlik yenilemesini yapılandırın.

  27. Oluştur’u seçin.

    Artık etkin bir veri paylaşımınız var. Veri paylaşımı oluştururken veri sağlayıcısı olarak neler görebileceğinizi gözden geçirebilirsiniz.

  28. Oluşturduğunuz DataProvider adlı veri paylaşımını seçin. Veri Paylaşımı'de Gönderilmiş Paylaşımlar'ı seçerek bu paylaşıma gidebilirsiniz.

  29. Anlık görüntü zamanlaması'nı seçin. İsterseniz anlık görüntü zamanlamasını devre dışı bırakabilirsiniz.

  30. Ardından Veri Kümeleri sekmesini seçin. Bu veri paylaşımı oluşturulduktan sonra bu veri paylaşımına ek veri kümeleri ekleyebilirsiniz.

  31. Abonelikleri paylaş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden henüz paylaşım aboneliği yok.

  32. Davetler sekmesine gidin. Burada bekleyen davetlerin listesini görürsünüz.

    Screenshot from the Azure portal of Pending invitations.

  33. davetini janedoe@fabrikam.comseçin. Sil'i seçin. Alıcınız daveti henüz kabul etmediyse, artık kabul edemez.

  34. Geçmiş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden ve bir anlık görüntü tetiklediğinden henüz hiçbir şey görüntülenmez.

Veri alma (Veri tüketici akışı)

Veri paylaşımımızı gözden geçirdiğimize göre artık bağlamı değiştirmeye ve veri tüketici şapkamızı takmaya hazırız.

Artık Gelen Kutunuzda Microsoft Azure'dan bir Azure Veri Paylaşımı daveti olmalıdır. Outlook Web Access'i (outlook.com) başlatın ve Azure aboneliğiniz için sağlanan kimlik bilgilerini kullanarak oturum açın.

Almış olmanız gereken e-postada "Daveti >görüntüle" seçeneğini belirleyin. Bu noktada, veri sağlayıcılarının kendi veri paylaşımı davetini kabul ederken veri tüketicisi deneyiminin benzetimini yapacaksınız.

Screenshot from Outlook of an Email invitation.

Bir abonelik seçmeniz istenebilir. Bu laboratuvar için çalıştığınız aboneliği seçtiğinizden emin olun.

  1. DataProvider adlı davette öğesini seçin.

  2. Bu Davet ekranında, daha önce veri sağlayıcısı olarak yapılandırdığınız veri paylaşımıyla ilgili çeşitli ayrıntılara dikkat edin. Ayrıntıları gözden geçirin ve sağlandıysa kullanım koşullarını kabul edin.

  3. Laboratuvarınız için zaten var olan Aboneliği ve Kaynak Grubunu seçin.

  4. Veri paylaşımı hesabı için DataConsumer'ı seçin. Yeni bir veri paylaşımı hesabı da oluşturabilirsiniz.

  5. Alınan paylaşım adı'nın yanında, varsayılan paylaşım adının veri sağlayıcısı tarafından belirtilen ad olduğuna dikkat edin. Paylaşıma, almak üzere olduğunuz verileri açıklayan kolay bir ad verin; örneğin TaxiDataShare.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. Şimdi kabul et ve yapılandır'ı veya Daha sonra kabul et ve yapılandır'ı seçebilirsiniz. Şimdi kabul edip yapılandırmayı seçerseniz, tüm verilerin kopyalanması gereken bir depolama hesabı belirtin. Daha sonra kabul edip yapılandırmayı seçerseniz, paylaşımdaki veri kümeleri eşlenmez ve bunları el ile eşlemeniz gerekir. Bunu daha sonra kabul edeceğiz.

  7. Kabul Et'i seçin ve daha sonra yapılandırın.

    Bu seçenek yapılandırılırken bir paylaşım aboneliği oluşturulur, ancak hiçbir hedef eşlenmediğinden verilerin ineceği yer yoktur.

    Ardından veri paylaşımı için veri kümesi eşlemelerini yapılandırın.

  8. Alınan Paylaşım'ı (5. adımda belirttiğiniz ad) seçin.

    Tetikleyici anlık görüntüsü gri renktedir ancak paylaşım Etkin'dir.

  9. Veri kümeleri sekmesini seçin. Her veri kümesinin Eşlenmemiş olması, verilerin kopyalanacak hedefi olmadığı anlamına gelir.

    Screenshot from the Azure portal of unmapped datasets.

  10. Azure Synapse Analytics Tablosu'nu ve ardından + Hedefle Eşle'yi seçin.

  11. Ekranın sağ tarafında Hedef Veri Türü açılan listesini seçin.

    SQL verilerini çok çeşitli veri depolarıyla eşleyebilirsiniz. Bu durumda, bir Azure SQL Veritabanı eşleyeceğiz.

    Screenshot from the Azure portal of map datasets to target.

    (İsteğe bağlı) Hedef veri türü olarak Azure Data Lake Storage 2. Nesil seçin.

    (İsteğe bağlı) Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.

    (İsteğe bağlı) Verileri csv veya parquet biçiminde data lake'inize almayı seçebilirsiniz.

  12. Hedef veri türü'nin yanındaki Azure SQL Veritabanı'ı seçin.

  13. Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. Devam etmeden önce, sağlanan betiği çalıştırarak SQL Server'da yeni bir kullanıcı oluşturmanız gerekir. İlk olarak, sağlanan betiği panonuza kopyalayın.

  15. Yeni bir Azure portalı sekmesi açın. Hemen geri dönmeniz gerektiğinden mevcut sekmenizi kapatmayın.

  16. Açtığınız yeni sekmede SQL veritabanları'na gidin.

  17. SQL veritabanını seçin (aboneliğinizde yalnızca bir veritabanı olmalıdır). Veri ambarını seçmemeye dikkat edin.

  18. Sorgu düzenleyicisi (önizleme) seçeneğini belirleyin

  19. Sorgu düzenleyicisinde oturum açmak için Microsoft Entra kimlik doğrulamasını kullanın.

  20. Veri paylaşımınızda sağlanan sorguyu çalıştırın (14. adımda panoya kopyalanır).

    Bu komut, Azure Veri Paylaşımı hizmetinin SQL Server'da kimlik doğrulaması yapmak üzere Azure Hizmetleri için Yönetilen Kimlikler'i kullanarak içine veri kopyalayabilmesini sağlar.

  21. Özgün sekmeye dönün ve Hedefe eşle'yi seçin.

  22. Ardından, veri kümesinin parçası olan Azure Data Lake Storage 2. Nesil klasörünü seçin ve bir Azure Blob Depolama hesabıyla eşleyin.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Tüm veri kümeleri eşlendiğinde artık veri sağlayıcısından veri almaya başlayabilirsiniz.

    Screenshot from the Azure portal of received shares mapped.

  23. Ayrıntılar'ı seçin.

    Veri paylaşımında kopyalanacak hedefler olduğundan tetikleyici anlık görüntüsü artık gri değil.

  24. Tetikleyici anlık görüntüsü ->Tam kopya'yı seçin.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    Bu, verileri yeni veri paylaşımı hesabınıza kopyalamaya başlar. Gerçek bir dünya senaryosunda bu veriler üçüncü taraflardan geliyor olabilir.

    Verilerin karşı karşıya gelmesi yaklaşık 3-5 dakika sürer. Geçmiş sekmesini seçerek ilerleme durumunu izleyebilirsiniz.

    Beklerken özgün veri paylaşımına (DataProvider) gidin ve Abonelikleri ve Geçmişi Paylaş sekmesinin durumunu görüntüleyin. Artık etkin bir abonelik vardır ve veri sağlayıcısı olarak veri tüketicisinin kendisiyle paylaşılan verileri almaya ne zaman başladığını da izleyebilirsiniz.

  25. Veri tüketicisinin veri paylaşımına geri dönün. Tetikleyicinin durumu başarılı olduktan sonra, verilerin ilgili depolara indiğini görmek için hedef SQL veritabanına ve data lake'e gidin.

Tebrikler, laboratuvarı tamamladınız!