Azure Veri Gezgini’ni Azure Data Factory ile tümleştirme

Azure Data Factory (ADF), farklı veri depolarını tümleştirmenize ve veriler üzerinde etkinlikler gerçekleştirmenize olanak tanıyan bulut tabanlı bir veri tümleştirme hizmetidir. ADF, veri taşımayı ve veri dönüştürmeyi düzenlemeye ve otomatikleştirmeye yönelik veri odaklı iş akışları oluşturmanıza olanak tanır. Azure Veri Gezgini, Azure Data Factory'da desteklenen veri depolarından biridir.

Azure Veri Gezgini için Azure Data Factory etkinlikleri

Azure Veri Gezgini kullanıcıları için Azure Data Factory ile çeşitli tümleştirmeler kullanılabilir:

Kopyalama etkinliği

Azure Data Factory Kopyalama etkinliği, veri depoları arasında veri aktarmak için kullanılır. Azure Veri Gezgini, verilerin Azure Veri Gezgini'dan desteklenen herhangi bir veri deposuna ve verilerin desteklenen herhangi bir veri deposundan Azure Veri Gezgini kopyalandığı bir havuza kopyalandığı bir kaynak olarak desteklenir. Daha fazla bilgi için bkz. Azure Data Factory kullanarak Azure Veri Gezgini'a veya Azure'dan veri kopyalama. Ayrıntılı bir kılavuz için bkz. Azure Data Factory Azure Veri Gezgini'a veri yükleme. Azure Veri Gezgini, Azure'da veriler kopyalandığında kullanılan Azure IR (Integration Runtime) ve şirket içinde veya Azure Sanal Ağ gibi erişim denetimine sahip bir ağda bulunan veri depolarından/bu depolara veri kopyalarken kullanılan şirket içinde barındırılan IR tarafından desteklenir. Daha fazla bilgi için hangi IR'yi kullanacağınıza bakın.

İpucu

Kopyalama etkinliğini kullanırken ve Bağlı Hizmet veya Veri Kümesi oluştururken Kusto eski veri deposunu değil Azure Veri Gezgini (Kusto) veri deposunu seçin.

Arama etkinliği

Arama etkinliği, Azure Veri Gezgini'da sorgu yürütmek için kullanılır. Sorgunun sonucu Arama etkinliğinin çıktısı olarak döndürülür ve ADF Arama belgelerinde açıklandığı gibi işlem hattındaki bir sonraki etkinlikte kullanılabilir.

5.000 satır ve 2 MB yanıt boyutu sınırına ek olarak, etkinliğin sorgu zaman aşımı sınırı da 1 saattir.

Komut etkinliği

Command etkinliği, Azure Veri Gezgini yönetim komutlarının yürütülmesine olanak tanır. Sorguların aksine, yönetim komutları potansiyel olarak verileri veya meta verileri değiştirebilir. Yönetim komutlarından bazıları, veya .set-or-appendgibi .ingestkomutlar kullanılarak verileri Azure Veri Gezgini'a almak veya gibi komutları .exportkullanarak Azure Veri Gezgini'dan dış veri depolarına veri kopyalamak için hedeflenmiştir. Komut etkinliğinin ayrıntılı bir kılavuzu için bkz. Azure Veri Gezgini yönetim komutlarını çalıştırmak için Azure Data Factory komut etkinliğini kullanma. Verileri kopyalamak için bir yönetim komutu kullanmak bazen Kopyalama etkinliği daha hızlı ve daha ucuz bir seçenek olabilir. Komut etkinliğinin Kopyalama etkinliği ne zaman kullanılacağını belirlemek için bkz. Veri kopyalarken Kopyalama ve Komut etkinlikleri arasında seçim yapın.

Veritabanı şablonundan toplu olarak kopyalama

Azure Data Factory şablonunu kullanarak bir veritabanından Azure Veri Gezgini toplu kopyalama önceden tanımlanmış bir Azure Data Factory işlem hattıdır. Şablon, daha hızlı veri kopyalama için veritabanı veya tablo başına çok sayıda işlem hattı oluşturmak için kullanılır.

Veri akışlarını eşleme

Azure Data Factory eşleme veri akışları, veri mühendislerinin kod yazmadan grafik veri dönüştürme mantığı geliştirmesine olanak sağlayan görsel olarak tasarlanmış veri dönüşümleridir. Veri akışı oluşturmak ve Azure Veri Gezgini'a veri almak için aşağıdaki yöntemi kullanın:

  1. Eşleme veri akışını oluşturun.
  2. Verileri Azure Blob'a aktarın.
  3. Verileri Azure Veri Gezgini almak için Event Grid veya ADF kopyalama etkinliğini tanımlayın.

Verileri kopyalarken Kopyalama ve Azure Veri Gezgini Komut etkinlikleri arasında seçim yapın

Bu bölüm, veri kopyalama gereksinimleriniz için doğru etkinliği seçmenize yardımcı olur.

Azure Veri Gezgini'dan veya Azure'a veri kopyalarken, Azure Data Factory iki kullanılabilir seçenek vardır:

  • Kopyalama etkinliği.
  • Azure Veri Gezgini'da veri aktarımı yapan yönetim komutlarından birini yürüten Azure Veri Gezgini Command etkinliği.

Azure Veri Gezgini'dan veri kopyalama

Kopyalama etkinliğini veya .export komutunu kullanarak Azure Veri Gezgini'dan veri kopyalayabilirsiniz. komutu .export bir sorgu yürütür ve ardından sorgunun sonuçlarını dışarı aktarır.

Azure Veri Gezgini'dan veri kopyalamaya yönelik Kopyalama etkinliği ve .export komutun karşılaştırması için aşağıdaki tabloya bakın.

Kopyalama etkinliği .export komutu
Akış açıklaması ADF Kusto'da bir sorgu yürütür, sonucu işler ve hedef veri deposuna gönderir.
(Azure Veri Gezgini > ADF > havuz veri deposu)
ADF, Azure Veri Gezgini'a bir .export yönetim komutu gönderir ve bu komut komutu yürütür ve verileri doğrudan hedef veri deposuna gönderir.
(** Azure Veri Gezgini > havuz veri deposu**)
Desteklenen hedef veri depoları Desteklenen çok çeşitli veri depoları ADLSv2, Azure Blob, SQL Veritabanı
Performans Merkezi
  • Dağıtılmış (varsayılan), birden çok düğümden verileri eşzamanlı olarak dışarı aktarma
  • Daha hızlı ve COGS (satılan malların maliyeti) verimli.
Sunucu sınırları Sorgu sınırları genişletilebilir/devre dışı bırakılabilir. Varsayılan olarak, ADF sorguları şunları içerir:
  • 500.000 kayıt veya 64 MB boyut sınırı.
  • 10 dakikalık süre sınırı.
  • noTruncation false olarak ayarlanır.
Varsayılan olarak, sorgu sınırlarını genişletir veya devre dışı bırakır:
  • Boyut sınırları devre dışı bırakıldı.
  • Sunucu zaman aşımı 1 saate uzatılır.
  • MaxMemoryConsumptionPerIterator ve MaxMemoryConsumptionPerQueryPerNode maksimuma (5 GB, TotalPhysicalMemory/2) genişletilir.

İpucu

Kopyalama hedefiniz komutu tarafından .export desteklenen veri depolarından biriyse ve Kopyalama etkinliği özelliklerinden hiçbiri gereksinimleriniz için önemli değilse komutunu seçin.export.

Azure Veri Gezgini'a veri kopyalama

Sorgudan alma (, .set-or-replace, .set, .replace)ve depolamadan alma.ingest ).set-or-append gibi kopyalama etkinliğini veya alma komutlarını kullanarak verileri Azure Veri Gezgini kopyalayabilirsiniz.

Azure Veri Gezgini'a veri kopyalamaya yönelik Kopyalama etkinliği ve alma komutlarının karşılaştırması için aşağıdaki tabloya bakın.

Kopyalama etkinliği Sorgudan alma
.set-or-append / .set-or-replace / .set / .replace
Depolamadan alma
.ingest
Akış açıklaması ADF, kaynak veri deposundaki verileri alır, tablo biçiminde dönüştürür ve gerekli şema eşleme değişikliklerini yapar. Ardından ADF verileri Azure bloblarına yükler, öbeklere böler ve sonra blobları indirerek Azure Veri Gezgini tablosuna alır.
(Kaynak veri deposu > ADF > Azure blobları > Azure Veri Gezgini)
Bu komutlar bir sorguyu veya .show komutu yürütebilir ve sorgunun sonuçlarını bir tabloya alabilir (Azure Veri Gezgini > Azure Veri Gezgini). Bu komut, verileri bir veya daha fazla bulut depolama yapıtından "çekerek" bir tabloya alır.
Desteklenen kaynak veri depoları çeşitli seçenekler ADLS 2. Nesil, Azure Blob, SQL ( sql_request() eklentisini kullanarak), Azure Cosmos DB ( cosmosdb_sql_request eklentisini kullanarak) ve HTTP veya Python API'leri sağlayan diğer tüm veri depoları. Dosya sistemi, Azure Blob Depolama, ADLS 1. Nesil, ADLS 2. Nesil
Performans Alımlar kuyruğa alınıp yönetilir. Bu sayede küçük boyutlu alımlar sağlanır ve yük dengeleme, yeniden denemeler ve hata işleme özellikleri sağlayarak yüksek kullanılabilirlik sağlanır.
  • Bu komutlar yüksek hacimli verileri içeri aktarmak için tasarlanmamıştır.
  • Beklendiği gibi ve daha ucuz çalışır. Ancak üretim senaryolarında ve trafik hızları ile veri boyutları büyük olduğunda Kopyalama etkinliği kullanın.
Sunucu Sınırları
  • Boyut sınırı yok.
  • Maksimum zaman aşımı sınırı: Alınan blob başına bir saat.
  • Sorgu bölümünde yalnızca belirtilerek noTruncation=trueatlanabilecek bir boyut sınırı vardır.
  • Maksimum zaman aşımı sınırı: Bir saat.
  • Boyut sınırı yok.
  • Maksimum zaman aşımı sınırı: Bir saat.

İpucu

  • ADF'den Azure'a veri kopyalarken Veri Gezgini komutlarını ingest from query kullanın.
  • Büyük veri kümeleri (>1 GB) için Kopyalama etkinliği kullanın.

Gerekli izinler

Aşağıdaki tabloda, Azure Data Factory tümleştirmesindeki çeşitli adımlar için gerekli izinler listelemektedir.

Adım İşlem En düşük izin düzeyi Notlar
Bağlı Hizmet Oluşturma Veritabanı gezintisi veritabanı görüntüleyicisi
ADF kullanarak oturum açan kullanıcının veritabanı meta verilerini okuma yetkisine sahip olması gerekir.
Kullanıcı veritabanı adını el ile sağlayabilir.
Bağlantıyı Sına veritabanı izleyicisi veya tablo alma
Hizmet sorumlusu, veritabanı düzeyi komutlarını veya tablo düzeyi .show alımını yürütme yetkisine sahip olmalıdır.
  • TestConnection, veritabanıyla değil kümeyle bağlantıyı doğrular. Veritabanı mevcut olmasa bile başarılı olabilir.
  • Tablo yöneticisi izinleri yeterli değildir.
Veri Kümesi Oluşturma Tablo gezintisi veritabanı izleyicisi
ADF kullanarak oturum açan kullanıcının veritabanı düzeyinde .show komutları yürütme yetkisine sahip olması gerekir.
Kullanıcı tablo adını el ile sağlayabilir.
Veri Kümesi Oluşturma veya Kopyalama Etkinliği Verileri önizleme veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır.
Şemayı içeri aktarma veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır.
Azure Veri Gezgini tablosaldan tabloya kopyanın kaynağı olduğunda, kullanıcı şemayı açıkça içeri aktarmamış olsa bile ADF şemayı otomatik olarak içeri aktarır.
Havuz olarak Azure Veri Gezgini Ada göre sütun eşlemesi oluşturma veritabanı izleyicisi
Hizmet sorumlusu, veritabanı düzeyinde .show komutları yürütmek için yetkilendirilmelidir.
  • Tüm zorunlu işlemler tablo alma aracıyla çalışır.
  • Bazı isteğe bağlı işlemler başarısız olabilir.
  • Tabloda CSV eşlemesi oluşturma
  • Eşlemeyi bırakma
tablo alma veyaveritabanı yöneticisi
Hizmet sorumlusu bir tabloda değişiklik yapma yetkisine sahip olmalıdır.
Veriyi çekme tablo alma veyaveritabanı yöneticisi
Hizmet sorumlusu bir tabloda değişiklik yapma yetkisine sahip olmalıdır.
Kaynak olarak Azure Veri Gezgini Sorgu yürütme veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır.
Kusto komutu Her komutun izin düzeyine göre.

Performans

Kaynak Azure Veri Gezgini ise ve burada sorgu içeren Arama, kopyalama veya komut etkinliğini kullanıyorsanız, performans bilgileri için en iyi sorgu yöntemlerine ve kopyalama etkinliği için ADF belgelerine bakın.

Bu bölümde, Azure Veri Gezgini'nin havuz olduğu kopyalama etkinliğinin kullanımı ele alır. Azure Veri Gezgini havuzu için tahmini aktarım hızı 11-13 MB/sn'dir. Aşağıdaki tabloda Azure Veri Gezgini havuzu performansını etkileyen parametreler ayrıntılı olarak açıklanmaktadır.

Parametre Notlar
Bileşenler coğrafi yakınlığı Tüm bileşenleri aynı bölgeye yerleştirin:
  • kaynak ve havuz veri depoları.
  • ADF tümleştirme çalışma zamanı.
  • Azure Veri Gezgini kümeniz.
En azından tümleştirme çalışma zamanınızın Azure Veri Gezgini kümenizle aynı bölgede olduğundan emin olun.
DIU sayısı ADF tarafından kullanılan her dört DIU için bir VM.
DIU'ları artırmak, yalnızca kaynağınız birden çok dosya içeren dosya tabanlı bir depo olduğunda yardımcı olur. Ardından her VM farklı bir dosyayı paralel olarak işler. Bu nedenle, tek bir büyük dosyayı kopyalamak, birden çok küçük dosyayı kopyalamaktan daha yüksek gecikme süresine sahiptir.
Azure Veri Gezgini kümenizin miktarı ve SKU'su Çok sayıda Azure Veri Gezgini düğümü alım işleme süresini artırır. Geliştirme SKU'larının kullanılması performansı ciddi ölçüde sınırlayacaktır
Parallelism Veritabanından büyük miktarda veri kopyalamak için verilerinizi bölümleyin ve ardından her bölümü paralel olarak kopyalayan bir ForEach döngüsü kullanın veya Veritabanından Azure Veri Gezgini Şablonuna Toplu Kopyalama'yı kullanın. Not: Kopyalama etkinliği Ayarlar>Paralellik Derecesi, Azure Veri Gezgini ile ilgili değildir.
Veri işleme karmaşıklığı Gecikme süresi kaynak dosya biçimine, sütun eşlemesine ve sıkıştırmaya göre değişir.
Tümleştirme çalışma zamanınızı çalıştıran VM
  • Azure kopyalama için ADF VM'leri ve makine SKU'ları değiştirilemez.
  • Şirket içinde Azure kopyası için, şirket içinde barındırılan IR'nizi barındıran VM'nin yeterince güçlü olduğunu belirleyin.

İpuçları ve yaygın tuzaklar

Etkinlik ilerleme durumunu izleme

  • Etkinlik ilerleme durumunu izlerken, Veriokuma özelliği ikili dosya boyutuna göre hesaplandığından, yazılan veriler seri durumdan çıkarılıp açıldıktan sonra bellek içi boyuta göre hesaplandığından Yazılan veriler özelliği Veri okuma özelliğinden daha büyük olabilir.

  • Etkinlik ilerleme durumunu izlerken verilerin Azure Veri Gezgini havuzuna yazıldığını görebilirsiniz. Azure Veri Gezgini tablosunu sorgularken verilerin gelmediğini görürsünüz. Bunun nedeni, Azure Veri Gezgini'a kopyalama sırasında iki aşama olmasıdır.

    • İlk aşama kaynak verileri okur, 900 MB öbeklere böler ve her öbeği bir Azure Blob'a yükler. İlk aşama, ADF etkinliği ilerleme durumu görünümü tarafından görülür.
    • İkinci aşama, tüm veriler Azure Blobları'na yüklendikten sonra başlar. Kümenizin düğümleri blobları indirir ve verileri havuz tablosuna alır. Ardından veriler Azure Veri Gezgini tablonuzda görünür.

Hatalı kaçış nedeniyle CSV dosyalarını alma hatası

Azure Veri Gezgini, CSV dosyalarının RFC 4180 ile hizalanmasını bekler. Şu beklentiler vardır:

  • Kaçış gerektiren karakterler (örneğin , " ve yeni satırlar) içeren alanlar boşluk olmadan " karakteriyle başlayıp bitmelidir. Alanın içindeki tüm " karakterleri çift " karakteri ("" kullanılarak kaçış karakteri kullanılır). Örneğin, "Hello, ""World"", Hello, "World"içeriğine sahip tek bir sütuna veya alana sahip tek bir kaydı olan geçerli bir CSV dosyasıdır.
  • Dosyadaki tüm kayıtlar aynı sayıda sütuna ve alana sahip olmalıdır.

Azure Data Factory ters eğik çizgi (kaçış) karakterine izin verir. Azure Data Factory kullanarak ters eğik çizgi karakterine sahip bir CSV dosyası oluşturursanız, dosyanın Azure Veri Gezgini'a alımı başarısız olur.

Örnek

Aşağıdaki metin değerleri: Hello, "World"
ABC DEF
"ABC\D"EF
"ABC DEF

Uygun bir CSV dosyasında şu şekilde görünmelidir: "Hello, ""World"""
"ABC DEF"
"""ABC\D""EF"
"""ABC DEF"

Varsayılan kaçış karakteri (ters eğik çizgi) kullanıldığında aşağıdaki CSV, Azure Veri Gezgini ile çalışmaz: "Hello, "World""
"ABC DEF"
""ABC\D"EF"
""ABC DEF"

İç içe JSON nesneleri

JSON dosyasını Azure Veri Gezgini'a kopyalarken şunları unutmayın:

  • Diziler desteklenmez.
  • JSON yapınız nesne veri türleri içeriyorsa, Azure Data Factory nesnenin alt öğelerini düzleştirmeye ve her alt öğeyi Azure Veri Gezgini tablonuzda farklı bir sütuna eşlemeye çalışır. Nesne öğesinin tamamının Azure Veri Gezgini tek bir sütuna eşlenmesi istiyorsanız:
    • JSON satırının tamamını Azure Veri Gezgini'da tek bir dinamik sütuna alın.
    • Azure Data Factory JSON düzenleyicisini kullanarak işlem hattı tanımını el ile düzenleyin. Eşlemeler'de
      • Her alt öğe için oluşturulan birden çok eşlemeyi kaldırın ve nesne türünüzü tablo sütununuza eşleyen tek bir eşleme ekleyin.
      • Kapanış köşeli ayracından sonra bir virgül ekleyin ve ardından:
        "mapComplexValuesToString": true.

Azure Veri Gezgini'a kopyalarken Ek Özellikler belirtme

İşlem hattındaki kopyalama etkinliğinde belirterek ek alma özellikleri ekleyebilirsiniz.

Özellik eklemek için

  1. Azure Data Factory'da Yazar kalem aracını seçin.

  2. İşlem Hattı'nın altında, ek alım özellikleri eklemek istediğiniz işlem hattını seçin.

  3. Etkinlikler tuvalinde Veri kopyalama etkinliğini seçin.

  4. Etkinlik ayrıntılarında Havuz'u seçin ve ardından Ek özellikler'i genişletin.

  5. Yeni'yi seçin, Düğüm ekle'yi veya Gerektiğinde dizi ekle'yi seçin ve ardından alma özelliği adını ve değerini belirtin. Daha fazla özellik eklemek için bu adımı yineleyin.

  6. İşlem hattınızı kaydedin ve yayımlayın.

Sonraki adım