Bagikan melalui


Streaming di Azure Databricks

Anda dapat menggunakan Azure Databricks untuk penyerapan data hampir real time, pemrosesan, pembelajaran mesin, dan AI untuk data streaming.

Azure Databricks menawarkan banyak pengoptimalan untuk streaming dan pemrosesan bertahap. Untuk sebagian besar streaming atau pemrosesan data bertahap atau tugas ETL, Databricks merekomendasikan Tabel Langsung Delta. Lihat Apa itu Tabel Langsung Delta?.

Sebagian besar beban kerja bertambah bertahap dan streaming di Azure Databricks didukung oleh Streaming Terstruktur, termasuk Tabel Langsung Delta dan Auto Loader. Lihat Apa itu Pemuat Otomatis?.

Delta Lake dan Structured Streaming memiliki integrasi yang ketat untuk mendukung pemrosesan bertahap di databricks lakehouse. Lihat Pembacaan dan penulisan streaming tabel Delta.

Untuk penyajian model real time, lihat Penyajian model dengan Azure Databricks.

Untuk mempelajari selengkapnya tentang membangun solusi streaming di platform Azure Databricks, lihat halaman produk streaming data.

Azure Databricks memiliki fitur khusus untuk bekerja dengan bidang data semi terstruktur yang terkandung dalam Avro, buffer protokol, dan payload data JSON. Untuk mempelajari selengkapnya, lihat:

Apa itu Streaming Terstruktur?

Apache Spark Structured Streaming adalah mesin pemrosesan mendekati real time yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan sekali menggunakan API Spark yang sudah dikenal. Streaming Terstruktur memungkinkan Anda mengekspresikan komputasi pada data streaming dengan cara yang sama seperti Anda mengekspresikan komputasi batch pada data statis. Mesin Streaming Terstruktur melakukan komputasi secara bertahap dan terus memperbarui hasilnya saat data streaming tiba.

Jika Anda baru menggunakan Streaming Terstruktur, lihat Menjalankan beban kerja Streaming Terstruktur pertama Anda.

Untuk informasi tentang menggunakan Streaming Terstruktur dengan Katalog Unity, lihat Menggunakan Katalog Unity dengan Streaming Terstruktur.

Sumber dan sink streaming apa yang didukung Azure Databricks?

Databricks merekomendasikan penggunaan Auto Loader untuk menyerap jenis file yang didukung dari penyimpanan objek cloud ke Delta Lake. Untuk alur ETL, Databricks merekomendasikan penggunaan Tabel Langsung Delta (yang menggunakan tabel Delta dan Streaming Terstruktur). Anda juga dapat mengonfigurasi beban kerja ETL bertambah bertahap dengan streaming ke dan dari tabel Delta Lake.

Selain Delta Lake dan Auto Loader, Streaming Terstruktur dapat terhubung ke layanan olahpesan seperti Apache Kafka.

Anda juga dapat Menggunakan foreachBatch untuk menulis ke sink data arbitrer.

Sumber daya tambahan

Apache Spark menyediakan Panduan Pemrograman Streaming Terstruktur yang memiliki informasi lebih lanjut tentang Streaming Terstruktur.

Untuk informasi referensi tentang Streaming Terstruktur, Databricks merekomendasikan referensi API Apache Spark berikut: