Cara menyerap data historis ke Azure Data Explorer

Skenario umum saat onboarding ke Azure Data Explorer adalah menyerap data historis, kadang-kadang disebut isi ulang. Proses ini melibatkan penyerapan data dari sistem penyimpanan yang ada ke dalam tabel, yang merupakan kumpulan jangkauan.

Sebaiknya serap data historis menggunakan properti penyerapan creationTime untuk mengatur waktu pembuatan sejauh waktu data dibuat. Menggunakan waktu pembuatan karena kriteria partisi penyerapan dapat menua data Anda sesuai dengan kebijakan cache dan retensi Anda, dan membuat filter waktu lebih efisien.

Secara default, waktu pembuatan untuk jangkauan diatur ke waktu ketika data diserap, yang mungkin tidak menghasilkan perilaku yang Anda harapkan. Misalnya, Anda memiliki tabel yang memiliki periode cache 30 hari dan periode retensi dua tahun. Dalam aliran normal, data yang diserap saat diproduksi di-cache selama 30 hari dan kemudian dipindahkan ke penyimpanan dingin. Setelah dua tahun, berdasarkan waktu pembuatannya, data yang lebih lama dihapus satu hari pada satu waktu. Namun, jika Anda menyerap dua tahun data historis di mana, secara default, data ditandai dengan waktu pembuatan sebagai waktu data diserap. Ini mungkin tidak menghasilkan hasil yang diinginkan karena:

  • Semua data mendarat di cache dan tetap berada di sana selama 30 hari, menggunakan lebih banyak cache daripada yang Anda perkirakan.
  • Data yang lebih lama tidak dihapus satu hari pada satu waktu; oleh karena itu data disimpan dalam kluster lebih lama dari yang diperlukan dan, setelah dua tahun, semuanya dihapus sekaligus.
  • Data, yang sebelumnya dikelompokkan menurut tanggal dalam sistem sumber, sekarang dapat dikelompokkan bersama-sama dalam jangkauan yang sama yang mengarah ke kueri yang tidak efisien.

Diagram memperlihatkan hasil yang diharapkan versus aktual dari penyerapan data historis menggunakan waktu pembuatan default.

Dalam artikel ini, Anda mempelajari cara mempartisi data historis:

  • creationTime Menggunakan properti penyerapan selama penyerapan (disarankan)

    Jika memungkinkan, serap data historis menggunakan creationTime properti penyerapan, yang memungkinkan Anda mengatur waktu pembuatan sejauh mana dengan mengekstraknya dari file atau jalur blob. Jika struktur folder Anda tidak menggunakan pola tanggal pembuatan, kami sarankan Anda merestrukturisasi file atau jalur blob Anda untuk mencerminkan waktu pembuatan. Dengan menggunakan metode ini, data diserap ke dalam tabel dengan waktu pembuatan yang benar, dan periode cache dan retensi diterapkan dengan benar.

    Catatan

    Secara default, luas dipartisi oleh waktu pembuatan (penyerapan), dan dalam banyak kasus tidak perlu menetapkan kebijakan partisi data.

  • Menggunakan kebijakan partisi pasca penyerapan

    Jika Anda tidak dapat menggunakan creationTime properti penyerapan, misalnya jika Anda menyerap data menggunakan konektor Azure Cosmos DB di mana Anda tidak dapat mengontrol waktu pembuatan atau jika Anda tidak dapat merestrukturisasi struktur folder, Anda dapat mempartisi ulang tabel pasca penyerapan untuk mencapai efek yang sama menggunakan kebijakan partisi. Namun, metode ini mungkin memerlukan beberapa percobaan dan kesalahan untuk mengoptimalkan properti kebijakan dan kurang efisien daripada menggunakan creationTime properti penyerapan. Kami hanya merekomendasikan metode ini saat menggunakan creationTime properti penyerapan tidak dimungkinkan.

Prasyarat

Menyerap data historis

Kami sangat menyarankan pemartisian data historis menggunakan creationTime properti penyerapan selama penyerapan. Namun, jika Anda tidak dapat menggunakan metode ini, Anda dapat mempartisi ulang tabel pasca penyerapan menggunakan kebijakan partisi.

LightIngest dapat berguna untuk memuat data historis dari sistem penyimpanan yang ada ke Azure Data Explorer. Meskipun Anda dapat membuat perintah Anda sendiri menggunakan daftar argumen Baris perintah, artikel ini memperlihatkan kepada Anda cara membuat perintah ini secara otomatis melalui wizard penyerapan. Selain membuat perintah, Anda dapat menggunakan proses ini untuk membuat tabel baru, dan membuat pemetaan skema. Alat ini menyimpulkan pemetaan skema dari himpunan data Anda.

Tujuan

  1. Di antarmuka pengguna web Azure Data Explorer, dari menu sebelah kiri, pilih Kueri.

  2. Klik kanan database tempat Anda ingin menyerap data, lalu pilih LightIngest.

    Cuplikan layar antarmuka pengguna web Azure Data Explorer memperlihatkan menu lainnya database.

    Jendela Serap data terbuka dengan tab Tujuan dipilih. Bidang Kluster dan Database diisi secara otomatis.

  3. Pilih tabel target. Jika Anda ingin menyerap data ke dalam tabel baru, pilih Tabel baru, lalu masukkan nama tabel.

    Catatan

    Nama tabel dapat mencapai 1024 karakter termasuk spasi, alfanumerik, tanda hubung, dan garis bawah. Karakter khusus tidak didukung.

    Cuplikan layar tab tujuan memperlihatkan database dan tabel tujuan.

  4. Pilih Berikutnya: Sumber.

Source

  1. Di bawah Pilih sumber, pilih Tambahkan URL atau Pilih kontainer.

    • Saat menambahkan URL, di bawah Tautkan ke sumber, tentukan kunci akun atau URL SAS ke kontainer. Anda dapat membuat URL SAS secara manual atau otomatis.

    • Saat memilih kontainer dari akun penyimpanan Anda, pilih langganan Penyimpanan, Akun penyimpanan, dan Kontainer Anda dari menu dropdown.

      Cuplikan layar kotak dialog untuk memilih kontainer dari langganan dan akun penyimpanan.

    Catatan

    Penyerapan mendukung ukuran file maksimum 6 GB. Rekomendasinya adalah menyerap file antara 100 MB dan 1 GB.

  2. Pilih Pengaturan tingkat lanjut untuk menentukan pengaturan tambahan untuk proses penyerapan menggunakan LightIngest.

    Cuplikan layar memilih pengaturan tingkat lanjut untuk pemrosesan penyerapan yang melibatkan alat LightIngest.

  3. Di panel Konfigurasi tingkat lanjut , tentukan pengaturan LightIngest sesuai dengan tabel berikut ini.

    Cuplikan layar panel konfigurasi tingkat lanjut memperlihatkan pengaturan tambahan untuk pemrosesan penyerapan yang melibatkan alat LightIngest.

    Properti Deskripsi
    Pola waktu pembuatan Tentukan untuk mengganti properti waktu penyerapan dari jangkauan yang dibuat dengan pola, misalnya, untuk menerapkan tanggal berdasarkan struktur folder kontainer. Lihat juga Pola waktu pembuatan.
    Pola nama blob Tentukan pola yang digunakan untuk mengidentifikasi file yang akan diserap. Serap semua file yang cocok dengan pola nama blob dalam kontainer yang diberikan. Mendukung kartubebas. Kami merekomendasikan untuk menyertakan dalam tanda kutip ganda.
    Menandai Tag yang ditetapkan ke data yang diserap. Tag dapat berupa string apa pun.
    Batasi jumlah file Tentukan jumlah file yang dapat diserap. Menyerap file pertama n yang cocok dengan pola nama blob, hingga angka yang ditentukan.
    Jangan menunggu penyerapan selesai Jika diatur, mengantrekan blob untuk penyerapan tanpa memantau proses penyerapan. Jika tidak diatur, LightIngest terus melakukan polling status penyerapan hingga penyerapan selesai.
    Tampilkan hanya item terpilih Cantumkan file dalam kontainer, tetapi tidak menyerapnya.
  4. Pilih Selesai untuk kembali ke tab Sumber .

    1. Secara opsional, pilih Filter File untuk memfilter data untuk menyerap hanya file di jalur folder tertentu atau dengan ekstensi file tertentu.

      Cuplikan layar pemfilteran data di tab sumber layar Serap data baru.

      Secara default, salah satu file dalam kontainer dipilih secara acak dan digunakan untuk menghasilkan skema untuk tabel.

    2. Secara opsional, di bawah Skema yang menentukan file, Anda dapat menentukan file yang akan digunakan.

  5. Pilih Berikutnya: Skema untuk melihat dan mengedit konfigurasi kolom tabel Anda.

Skema

Tab skema menyediakan pratinjau data.

Untuk menghasilkan perintah LightIngest, pilih Berikutnya: Mulai Penyerapan.

Opsional:

  • Ubah format Data yang disimpulkan secara otomatis dengan memilih format yang diinginkan dari menu dropdown.
  • Ubah nama Pemetaan yang disimpulkan secara otomatis. Anda dapat menggunakan karakter alfanumerik dan garis bawah. Spasi, karakter khusus, dan tanda hubung tidak didukung.
  • Saat menggunakan tabel yang sudah ada, Anda bisa Menyimpan skema tabel saat ini jika skema tabel cocok dengan format yang dipilih.
  • Pilih Penampil perintah untuk melihat dan menyalin perintah otomatis yang dihasilkan dari input Anda.
  • Edit kolom. Di bawah Pratinjau data parsial, pilih menu dropdown kolom untuk mengubah berbagai aspek tabel.

Perubahan yang dapat Anda lakukan dalam tabel tergantung pada parameter berikut:

  • Pilih Baru atau Yang Sudah Ada
  • Pilih Baru atau Yang Sudah Ada
Jenis tabel Jenis Pemetaan Penyesuaian yang tersedia
Tabel Baru Tambahkan Pemetaan Baru Mengubah tipe data, Mengganti nama kolom, Kolom baru, Hapus kolom, Perbarui kolom, Urutkan naik, Urutkan turun
Tabel yang sudah ada Tambahkan Pemetaan Baru Kolom baru (di mana Anda kemudian dapat mengubah tipe data, mengganti nama, dan memperbarui),
Perbarui kolom, Urutkan naik, Urutkan turun
Pemetaan yang ada Urutkan naik, Urutkan turun

Catatan

Saat menambahkan kolom baru atau memperbarui kolom, Anda dapat mengubah transformasi pemetaan. Untuk informasi selengkapnya, lihat alur pemetaan data.

Menyerap

  1. Setelah perintah tabel, pemetaan, dan LightIngest ditandai dengan tanda centang hijau, pilih ikon salin di kanan atas kotak perintah Yang Dihasilkan untuk menyalin perintah LightIngest yang dihasilkan.

    Cuplikan layar tab Ringkasan dengan perintah yang dihasilkan. Anda dapat menyalin perintah menggunakan ikon salin di atas kotak perintah yang dihasilkan.

    Catatan

    Jika diperlukan, Anda dapat mengunduh alat LightIngest dengan memilih Unduh LightIngest.

  2. Untuk menyelesaikan proses penyerapan, Anda harus menjalankan LightIngest menggunakan perintah yang disalin.