Bagikan melalui


Menyalin secara massal dari database ke Azure Data Explorer dengan menggunakan templat Azure Data Factory

Azure Data Explorer adalah layanan analitik data yang cepat, dikelola sepenuhnya. Ini menawarkan analisis real-time pada volume besar data yang mengalir dari banyak sumber, seperti aplikasi, situs web, dan perangkat IoT.

Untuk menyalin data dari database di Oracle Server, Netezza, Teradata, atau SQL Server ke Azure Data Explorer, Anda harus memuat sejumlah besar data dari beberapa tabel. Biasanya, data harus dipartisi di setiap tabel sehingga Anda dapat memuat baris dengan beberapa alur secara paralel dari satu tabel. Artikel ini menjelaskan templat untuk digunakan dalam skenario ini.

Templat Azure Data Factory adalah alur Data Factory yang telah ditentukan sebelumnya. Templat ini dapat membantu Anda memulai dengan cepat dengan Data Factory dan mengurangi waktu pengembangan pada proyek integrasi data.

Anda membuat templat Salin Massal dari Database ke Azure Data Explorer dengan menggunakan aktivitas Pencarian dan ForEach . Untuk penyalinan data yang lebih cepat, Anda dapat menggunakan templat untuk membuat banyak alur per database atau per tabel.

Penting

Pastikan untuk menggunakan alat yang sesuai untuk kuantitas data yang ingin Anda salin.

  • Gunakan templat Salin Massal dari Database ke Azure Data Explorer untuk menyalin data dalam jumlah besar dari database seperti server SQL dan Google BigQuery ke Azure Data Explorer.
  • Gunakan alat Data Salin Data Factory untuk menyalin beberapa tabel dengan jumlah data kecil atau sedang ke Azure Data Explorer.

Prasyarat

Membuat ControlTableDataset

ControlTableDataset menunjukkan data apa yang akan disalin dari sumber ke tujuan dalam alur. Jumlah baris menunjukkan jumlah total alur yang diperlukan untuk menyalin data. Anda harus menentukan ControlTableDataset sebagai bagian dari database sumber.

Contoh format tabel sumber SQL Server diperlihatkan dalam kode berikut:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Elemen kode dijelaskan dalam tabel berikut:

Properti Deskripsi Contoh
PartitionId Urutan penyalinan 1
SourceQuery Kueri yang menunjukkan data mana yang akan disalin selama runtime alur
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Nama tabel tujuan MyAdxTable

Jika ControlTableDataset Anda dalam format yang berbeda, buat ControlTableDataset yang sebanding untuk format Anda.

Menggunakan templat Salin Massal dari Database ke Azure Data Explorer

  1. Di panel Mari kita mulai , pilih Buat alur dari templat untuk membuka panel Galeri templat.

    Panel

  2. Pilih templat Salin Massal dari Database ke Azure Data Explorer.

    Templat

  3. Di panel Salin Massal dari Database ke Azure Data Explorer , di bawah Input Pengguna, tentukan himpunan data Anda dengan melakukan hal berikut:

    a. Di daftar drop-down ControlTableDataset, pilih layanan tertaut ke tabel kontrol yang menunjukkan data apa yang disalin dari sumber ke tujuan dan di mana data tersebut akan ditempatkan di tujuan.

    b. Di daftar drop-down SourceDataset, pilih layanan tertaut ke database sumber.

    c. Di daftar drop-down AzureDataExplorerTable, pilih tabel Azure Data Explorer. Jika himpunan data tidak ada, buat layanan tertaut Azure Data Explorer untuk menambahkan himpunan data.

    d. Pilih Gunakan templat ini.

    Panel

  4. Pilih area di kanvas, di luar aktivitas, untuk mengakses alur templat. Pilih tab Parameter untuk memasukkan parameter untuk tabel, termasuk Nama (nama tabel kontrol) dan Nilai default (nama kolom).

    Parameter alur.

  5. Di bawah Pencarian, pilih GetPartitionList untuk melihat pengaturan default. Kueri dibuat secara otomatis.

  6. Pilih aktivitas Perintah, ForEachPartition, pilih tab Pengaturan , lalu lakukan hal berikut:

    a. Dalam kotak Jumlah batch, masukkan angka dari 1 hingga 50. Pilihan ini menentukan jumlah alur yang berjalan secara paralel hingga jumlah baris ControlTableDataset tercapai.

    b. Untuk memastikan bahwa batch alur berjalan secara paralel, jangan pilih kotak centang Berurutan.

    Pengaturan ForEachPartition.

    Tip

    Praktik terbaik adalah menjalankan banyak alur secara paralel sehingga data Anda dapat disalin dengan lebih cepat. Untuk meningkatkan efisiensi, partisi data dalam tabel sumber dan alokasikan satu partisi per alur, sesuai dengan tanggal dan tabel.

  7. Pilih Validasi Semua untuk memvalidasi alur Azure Data Factory, lalu lihat hasilnya di panel Output Validasi Alur.

    Memvalidasi alur templat.

  8. Jika perlu, pilih Debug, lalu pilih Tambahkan pemicu untuk menjalankan alur.

    Tombol

Anda sekarang dapat menggunakan templat untuk menyalin data dalam jumlah besar secara efisien dari database dan tabel Anda.

  • Pelajari tentang konektor Azure Data Explorer untuk Azure Data Factory.
  • Edit layanan tertaut, himpunan data, dan alur di antarmuka pengguna Data Factory.
  • Mengkueri data di antarmuka pengguna web Azure Data Explorer.