Azure Data Factory şablonunu kullanarak veritabanından Azure Veri Gezgini toplu kopyalama

Azure Veri Gezgini hızlı, tam olarak yönetilen bir veri analizi hizmetidir. Uygulamalar, web siteleri ve IoT cihazları gibi birçok kaynaktan akışla aktaran büyük hacimli veriler üzerinde gerçek zamanlı analiz sunar.

Oracle Server, Netezza, Teradata veya SQL Server'daki bir veritabanından Azure Veri Gezgini'a veri kopyalamak için birden çok tablodan çok miktarda veri yüklemeniz gerekir. Genellikle, birden çok iş parçacığına sahip satırları tek bir tablodan paralel olarak yükleyebilmeniz için verilerin her tabloda bölümlenmiş olması gerekir. Bu makalede, bu senaryolarda kullanılacak bir şablon açıklanmaktadır.

Azure Data Factory şablonları önceden tanımlanmış Data Factory işlem hatlarıdır. Bu şablonlar Data Factory ile hızlı bir şekilde çalışmaya başlamanıza ve veri tümleştirme projelerinde geliştirme süresini azaltmanıza yardımcı olabilir.

Lookup ve ForEach etkinliklerini kullanarak Veritabanından Azure Veri Gezgini'a Toplu Kopyalama şablonunu oluşturursunuz. Daha hızlı veri kopyalama için şablonu kullanarak veritabanı veya tablo başına birçok işlem hattı oluşturabilirsiniz.

Önemli

Kopyalamak istediğiniz veri miktarına uygun aracı kullandığınızdan emin olun.

  • SQL Server ve Google BigQuery gibi veritabanlarından Azure Veri Gezgini'e büyük miktarda veri kopyalamak için Veritabanından Azure'a Toplu Kopyalama Veri Gezgini şablonunu kullanın.
  • Küçük veya orta miktarda veri içeren birkaç tabloyu Azure Veri Gezgini'a kopyalamak için Data Factory Veri Kopyalama aracını kullanın.

Önkoşullar

ControlTableDataset Oluşturma

ControlTableDataset , kaynaktan işlem hattındaki hedefe hangi verilerin kopyalanacaklarını gösterir. Satır sayısı, verileri kopyalamak için gereken toplam işlem hattı sayısını gösterir. ControlTableDataset'i kaynak veritabanının bir parçası olarak tanımlamanız gerekir.

Aşağıdaki kodda SQL Server kaynak tablo biçimi örneği gösterilmiştir:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Kod öğeleri aşağıdaki tabloda açıklanmıştır:

Özellik Açıklama Örnek
Partitionıd Kopyalama sırası 1
SourceQuery İşlem hattı çalışma zamanı sırasında hangi verilerin kopyalandığını gösteren sorgu
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Hedef tablo adı MyAdxTable

ControlTableDataset'iniz farklı bir biçimdeyse, biçiminiz için karşılaştırılabilir bir ControlTableDataset oluşturun.

Veritabanından Azure'a Toplu Kopyalama Veri Gezgini şablonunu kullanma

  1. Başlayalım bölmesinde Şablon galerisi bölmesini açmak için Şablondan işlem hattı oluştur'u seçin.

    Azure Data Factory

  2. Veritabanından Azure'a Toplu Kopyalama Veri Gezgini şablonunu seçin.

  3. Veritabanından Azure'a Toplu Kopyalama Veri Gezgini bölmesindeki Kullanıcı Girişleri'nin altında aşağıdakileri yaparak veri kümelerinizi belirtin:

    a. ControlTableDataset açılan listesinde, hangi verilerin kaynaktan hedefe kopyalandığını ve hedefe nereye yerleştirileceğini gösteren denetim tablosuna bağlı hizmeti seçin.

    b. SourceDataset açılan listesinde kaynak veritabanına bağlı hizmeti seçin.

    c. AzureDataExplorerTable açılan listesinde Azure Veri Gezgini tablosunu seçin. Veri kümesi yoksa, veri kümesini eklemek için Azure Veri Gezgini bağlı hizmetini oluşturun.

    d. Bu şablonu kullan'ı seçin.

  4. Şablon işlem hattına erişmek için tuvalde etkinliklerin dışında bir alan seçin. Ad (denetim tablosu adı) ve Varsayılan değer (sütun adları) dahil olmak üzere tablonun parametrelerini girmek için Parametreler sekmesini seçin.

    İşlem hattı parametreleri.

  5. Varsayılan ayarları görüntülemek için Arama'nın altında GetPartitionList'i seçin. Sorgu otomatik olarak oluşturulur.

  6. ForEachPartition Komut etkinliğini seçin, Ayarlar sekmesini seçin ve ardından aşağıdakileri yapın:

    a. Toplu iş sayısı kutusuna 1 ile 50 arasına bir sayı girin. Bu seçim , ControlTableDataset satır sayısına ulaşılana kadar paralel olarak çalışan işlem hattı sayısını belirler.

    b. İşlem hattı toplu işlemlerinin paralel çalıştığından emin olmak için Sıralı onay kutusunu seçmeyin.

    ForEachPartition ayarları.

    İpucu

    En iyi yöntem, verilerinizin daha hızlı kopyalanması için birçok işlem hattını paralel olarak çalıştırmaktır. Verimliliği artırmak için kaynak tablodaki verileri bölümleyip tarih ve tabloya göre işlem hattı başına bir bölüm ayırın.

  7. Azure Data Factory işlem hattını doğrulamak için Tümünü Doğrula'yı seçin ve ardından sonucu İşlem Hattı Doğrulama Çıkışı bölmesinde görüntüleyin.

    Şablon işlem hatlarını doğrulama.

  8. Gerekirse Hata Ayıkla'yı ve ardından tetikleyici ekle'yi seçerek işlem hattını çalıştırın.

Artık veritabanlarınızdan ve tablolarınızdan büyük miktarda veriyi verimli bir şekilde kopyalamak için şablonu kullanabilirsiniz.