Streaming di Azure Databricks
Anda dapat menggunakan Azure Databricks untuk penyerapan data hampir real time, pemrosesan, pembelajaran mesin, dan AI untuk data streaming.
Azure Databricks menawarkan banyak pengoptimalan untuk streaming dan pemrosesan bertahap, termasuk yang berikut ini:
- Tabel Langsung Delta menyediakan sintaksis deklaratif untuk pemrosesan bertahap. Lihat Apa itu Tabel Langsung Delta?.
- Auto Loader menyederhanakan penyerapan inkremental dari penyimpanan objek cloud. Lihat Apa itu Pemuat Otomatis?.
- Unity Catalog menambahkan tata kelola data ke beban kerja streaming. Lihat Menggunakan Katalog Unity dengan Streaming Terstruktur.
Delta Lake menyediakan lapisan penyimpanan untuk integrasi ini. Lihat Pembacaan dan penulisan streaming tabel Delta.
Untuk penyajian model real time, lihat Penyajian model dengan Azure Databricks.
-
Pelajari dasar-dasar pemrosesan mendekati real-time dan inkremental dengan Streaming Terstruktur di Azure Databricks.
-
Pelajari konsep inti untuk mengonfigurasi beban kerja inkremental dan hampir real-time dengan Streaming Terstruktur.
-
Mengelola informasi status menengah dari kueri Streaming Terstruktur stateful dapat membantu mencegah latensi dan masalah produksi yang tidak terduga.
-
Artikel ini berisi rekomendasi untuk mengonfigurasikan beban kerja pemrosesan inkremental produksi dengan Streaming Terstruktur di Azure Databricks guna memenuhi persyaratan latensi dan biaya untuk aplikasi real time atau batch.
-
Pelajari cara memantau aplikasi Streaming Terstruktur di Azure Databricks.
-
Pelajari cara memanfaatkan Katalog Unity bersama dengan Streaming Terstruktur di Azure Databricks.
-
Pelajari cara menggunakan tabel Delta Lake sebagai sumber streaming dan sink.
-
Lihat contoh menggunakan Streaming Terstruktur Spark dengan Cassandra, Azure Synapse Analytics, buku catatan Python, dan buku catatan Scala di Azure Databricks.
Azure Databricks memiliki fitur khusus untuk bekerja dengan bidang data semi terstruktur yang terkandung dalam Avro, buffer protokol, dan payload data JSON. Untuk mempelajari selengkapnya, lihat:
Sumber Daya Tambahan:
Apache Spark menyediakan Panduan Pemrograman Streaming Terstruktur yang memiliki informasi lebih lanjut tentang Streaming Terstruktur.
Untuk informasi referensi tentang Streaming Terstruktur, Databricks merekomendasikan referensi API Apache Spark berikut: