Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penyerapan data melibatkan pemuatan data ke dalam tabel di kluster Anda. Azure Data Explorer memastikan validitas data, mengonversi format sesuai kebutuhan, dan melakukan manipulasi seperti pencocokan skema, organisasi, pengindeksan, pengodean, dan pemadatan. Setelah diproses, data tersedia untuk diakses.
Azure Data Explorer menawarkan ingesti sekali atau pembangunan alur ingesti berkelanjutan, menggunakan streaming atau ingesti antrian. Untuk menentukan mana yang tepat untuk Anda, lihat Penyerapan data satu kali dan Penyerapan data berkelanjutan.
Catatan
Data disimpan dalam penyimpanan sesuai dengan kebijakan penyimpanan yang ditetapkan.
Penyerapan data satu kali
Penyerapan satu kali sangat membantu untuk transfer data historis, mengisi data yang hilang, dan tahap awal pembuatan prototipe dan analisis data. Pendekatan ini memfasilitasi integrasi data cepat tanpa perlu komitmen alur berkelanjutan.
Ada beberapa cara untuk melakukan penyerapan data satu kali. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:
Untuk informasi selengkapnya, lihat dokumentasi yang relevan:
Penanda | Dokumentasi yang relevan |
---|---|
![]() |
Lihat format data yang didukung oleh Azure Data Explorer untuk penyerapan. |
![]() |
Lihat format file yang didukung untuk alur Azure Data Factory. |
![]() |
Untuk mengimpor data dari sistem penyimpanan yang ada, lihat Cara menyerap data historis ke Azure Data Explorer. |
![]() |
Di UI web Azure Data Explorer, Anda bisa mendapatkan data dari file lokal, Amazon S3, atau Azure Storage. |
![]() |
Untuk berintegrasi dengan Azure Data Factory, lihat Menyalin data ke Azure Data Explorer dengan menggunakan Azure Data Factory. |
![]() |
Perpustakaan klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan. |
Penyerapan data berkelanjutan
Penyerapan berkelanjutan unggul dalam situasi yang menuntut wawasan langsung dari data langsung. Misalnya, pengumpulan berkelanjutan berguna untuk memantau sistem, data log dan peristiwa, serta analitik waktu nyata.
Penyerapan data berkelanjutan melibatkan pengaturan jalur penyerapan dengan streaming atau pengantrean.
Penyerapan streaming: Metode ini memastikan latensi mendekati real-time untuk kumpulan data kecil per tabel. Data diserap dalam batch mikro yang berasal dari sumber streaming, awalnya ditempatkan di penyimpanan baris, lalu ditransfer ke segmen penyimpanan kolom. Untuk informasi selengkapnya, lihat Mengonfigurasi ingesti streaming.
Antrean penyerapan: Metode ini dioptimalkan untuk throughput penyerapan tinggi. Data di-batch berdasarkan properti penyerapan, dengan batch kecil kemudian digabungkan dan dioptimalkan untuk hasil kueri cepat. Secara default, nilai antrean maksimum adalah 5 menit, 1000 item, atau ukuran total 1 GB. Batas ukuran data untuk perintah pemasukan antrean adalah 6 GB. Metode ini menggunakan mekanisme pengulangan untuk mengurangi kegagalan sementara dan mengikuti semantik pengiriman pesan 'setidaknya sekali' untuk memastikan pesan tidak hilang dalam proses. Untuk informasi selengkapnya tentang pemasukan antrean, lihat Kebijakan pengelompokan pemasukan.
Catatan
Untuk sebagian besar skenario, sebaiknya gunakan pengambilan antrean karena ini adalah opsi yang memiliki kinerja lebih baik.
Catatan
Penyerapan melalui antrean memastikan buffering data yang dapat diandalkan selama hingga 7 hari. Namun, jika kluster tidak memiliki kapasitas yang memadai untuk menyelesaikan penyerapan dalam jendela retensi ini, data akan dihilangkan setelah batas 7 hari terlampaui. Untuk menghindari kehilangan data dan penundaan penyerapan, pastikan kluster Anda memiliki sumber daya yang cukup untuk memproses data yang diantrekan dalam periode 7 hari.
Ada beberapa cara untuk mengonfigurasi penyerapan data berkelanjutan. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:
Untuk informasi selengkapnya, lihat dokumentasi yang relevan:
Penanda | Dokumentasi yang relevan |
---|---|
![]() |
Untuk daftar konektor, lihat Gambaran umum konektor. |
![]() |
Membuat koneksi data Event Hubs. Integrasi dengan Azure Event Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan. |
![]() |
Menyerap data dari Apache Kafka, platform streaming terdistribusi untuk membangun alur data streaming real time. |
![]() |
Buat sambungan data IoT Hub. Integrasi dengan IoT Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan. |
![]() |
Membuat sebuah koneksi data Event Grid. Integrasi dengan Event Grid menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan. |
![]() |
Lihat panduan untuk konektor yang relevan, seperti Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk, dan banyak lagi. Untuk informasi selengkapnya, lihat Gambaran umum konektor. |
![]() |
Perpustakaan klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan. |
Catatan
Pemasukan data streaming tidak didukung untuk semua metode pemasukan. Untuk detail dukungan, periksa dokumentasi untuk metode penyerapan tertentu.
Penyerapan langsung dengan perintah manajemen
Azure Data Explorer menawarkan perintah manajemen penyerapan berikut, yang menyerap data langsung ke kluster Anda alih-alih menggunakan layanan manajemen data. Mereka harus digunakan hanya untuk eksplorasi dan prototipe dan bukan dalam skenario produksi atau volume tinggi.
- Pengambilan Sebaris: Perintah .ingest inline berisi data untuk diambil sebagai bagian dari teks perintah itu sendiri. Metode ini dimaksudkan untuk tujuan pengujian improvisasi.
- Menyerap dari kueri: Perintah .set, .append, .set-or-append, atau .set-or-replace secara tidak langsung menentukan data untuk diserap sebagai hasil kueri atau perintah.
- Ingest dari penyimpanan: Perintah .ingest into mendapatkan data untuk di-ingest dari penyimpanan eksternal, seperti Azure Blob Storage, yang dapat diakses oleh kluster Anda dan ditunjuk oleh perintah.
Catatan
Jika terjadi kegagalan, penyerapan dilakukan lagi, dan dicoba kembali hingga 48 jam menggunakan metode backoff eksponensial untuk waktu tunggu antara percobaan.
Membandingkan metode penyerapan
Tabel berikut membandingkan metode penyerapan utama:
Nama penyerapan | Jenis Data | Ukuran file maksimal | Streaming, diantrekan, langsung | Skenario paling umum | Pertimbangan |
---|---|---|---|---|---|
Konektor Apache Spark | Setiap format yang didukung oleh lingkungan Spark | Tidak Terbatas | Dalam antrean | Pipa data yang ada, prapengolahan pada Spark sebelum penyerapan, adalah cara cepat untuk membuat alur streaming (Spark) yang aman dari berbagai sumber yang didukung oleh lingkungan Spark. | Pertimbangkan biaya kluster Spark. Untuk penulisan batch, bandingkan dengan koneksi data Azure Data Explorer untuk Event Grid. Untuk streaming Spark, bandingkan dengan koneksi data untuk pusat aktivitas. |
Azure Data Factory (ADF) | Format data yang didukung | Tidak Terbatas. Mewarisi pembatasan ADF. | Antrean atau per pemicu ADF | Mendukung format yang tidak didukung, seperti Excel dan XML, dan dapat menyalin file besar dari lebih dari 90 sumber, dari lokal ke cloud | Metode ini membutuhkan waktu yang relatif lebih lama sampai data diserap. ADF mengunggah semua data ke memori lalu memulai penyerapan. |
Event Grid | Format data yang didukung | 1 GB tidak dikompresi | Dalam antrean | Penyerapan berkelanjutan dari penyimpanan Azure, data eksternal di penyimpanan Azure | Penyerapan dapat dipicu oleh tindakan penggantian nama blob atau pembuatan blob |
Hub Acara | Format data yang didukung | Tidak Berlaku | Dalam Antrian, streaming | Pesan, peristiwa | |
Dapatkan pengalaman data | *SV, JSON | 1 GB tidak dikompresi | Antrean atau penyerapan langsung | Sekali, buat skema tabel, definisi ingestasi berkelanjutan dengan Event Grid, ingestasi massal dengan kontainer (hingga 5.000 blob; tidak ada batasan saat menggunakan ingestasi historis) | |
Pusat IoT | Format data yang didukung | Tidak Berlaku | Dalam Antrian, streaming | Pesan IoT, peristiwa IoT, properti IoT | |
Konektor Kafka | Avro, ApacheAvro, JSON, CSV, Parquet, dan ORC | Tidak Terbatas. Mewarisi pembatasan Java. | Dalam Antrian, streaming | Alur yang ada, konsumsi volume tinggi dari sumbernya. | Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan. |
Pustaka klien Kusto | Format data yang didukung | 1 GB tidak dikompresi | Diantrekan, streaming, langsung | Menulis kode Anda sendiri sesuai dengan kebutuhan organisasi | Penyerapan terprogram dioptimalkan untuk mengurangi biaya penyerapan (COG) dengan meminimalkan transaksi penyimpanan selama dan mengikuti proses penyerapan. |
LightIngest | Format data yang didukung | 1 GB tidak dikompresi | Antrean atau penyerapan langsung | Migrasi data, data historis dengan tanda waktu penyerapan yang disesuaikan, penyerapan massal | Peka huruf besar/kecil dan peka spasi |
Aplikasi Logika | Format data yang didukung | 1 GB tidak dikompresi | Dalam antrean | Digunakan untuk mengotomatiskan alur | |
LogStash | JSON | Tidak Terbatas. Mewarisi pembatasan Java. | Dalam antrean | Alur yang ada, gunakan sifat Logstash yang matang dan sumber terbuka untuk konsumsi volume tinggi dari input. | Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan. |
Otomatisasi Daya | Format data yang didukung | 1 GB tidak dikompresi | Dalam antrean | Perintah penyerapan sebagai bagian dari alur. Digunakan untuk mengotomatiskan alur. |
Untuk informasi tentang konektor lain, lihat Gambaran umum konektor.
Izin
Daftar berikut ini menjelaskan izin yang diperlukan untuk berbagai skenario penyerapan:
- Untuk membuat tabel baru, Anda harus memiliki setidaknya izin Pengguna Database.
- Untuk menyerap data ke dalam tabel yang ada, tanpa mengubah skemanya, Anda harus memiliki setidaknya izin Table Ingestor.
- Untuk mengubah skema tabel yang sudah ada, Anda harus memiliki setidaknya izin Admin Tabel atau Admin Database.
Tabel berikut ini menjelaskan izin yang diperlukan untuk setiap metode penyerapan:
Metode penyerapan | Izin |
---|---|
Penyerapan satu kali | Setidaknya Table Ingestor |
Penyerapan streaming berkelanjutan | Setidaknya Table Ingestor |
Pengambilan data berurutan berkelanjutan | Setidaknya Table Ingestor |
Penyerapan sebaris langsung | Setidaknya Table Ingestor dan Database Viewer |
Pengambilan data langsung dari kueri | Setidaknya Table Ingestor dan Database Viewer |
Penyerapan langsung dari penyimpanan | Setidaknya Table Ingestor |
Untuk informasi selengkapnya, lihat Kontrol akses berbasis peran Kusto.
Proses penyerapan
Langkah-langkah berikut menguraikan proses penyerapan umum:
Atur kebijakan pengelompokan (opsional): Data dikelompokkan berdasarkan kebijakan pengelompokan untuk pemasukan. Untuk panduan, lihat Mengoptimalkan throughput.
Atur kebijakan penyimpanan (opsional): Jika kebijakan penyimpanan database tidak cocok untuk kebutuhan Anda, ambil alih di tingkat tabel. Untuk informasi selengkapnya, lihat Kebijakan retensi.
Buat tabel: Jika Anda menggunakan pengalaman Dapatkan data, Anda bisa membuat tabel sebagai bagian dari alur penyerapan. Jika tidak, buat tabel sebelum penyerapan di UI web Azure Data Explorer atau dengan perintah .create table.
Membuat pemetaan skema: Pemetaan skema membantu mengikat bidang data sumber ke kolom tabel tujuan. Berbagai jenis pemetaan didukung, termasuk format berorientasi baris seperti CSV, JSON, dan AVRO, dan format berorientasi kolom seperti Parquet. Di sebagian besar metode, pemetaan juga dapat dibuat sebelumnya pada tabel.
Atur kebijakan pembaruan (opsional): Format data tertentu seperti Parquet, JSON, dan Avro memungkinkan transformasi langsung pada waktu pemasukan data. Untuk pemrosesan yang lebih rumit selama penyerapan, gunakan kebijakan pembaruan. Kebijakan ini secara otomatis menjalankan ekstraksi dan transformasi pada data yang diserap dalam tabel asli, lalu menyerap data yang dimodifikasi menjadi satu atau beberapa tabel tujuan.
Menyerap data: Gunakan alat penyerapan, konektor, atau metode pilihan Anda untuk membawa data.