Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Databricks menyediakan Lakeflow, solusi rekayasa data end-to-end yang memberdayakan teknisi data, pengembang perangkat lunak, pengembang SQL, analis, dan ilmuwan data untuk memberikan data berkualitas tinggi untuk analitik hilir, AI, dan aplikasi operasional. Lakeflow adalah solusi terpadu untuk penyerapan, transformasi, dan orkestrasi data Anda, dan mencakup Lakeflow Connect, Lakeflow Spark Declarative Pipelines, dan Lakeflow Jobs.
Lakeflow Connect
Lakeflow Connect menyederhanakan penyerapan data dengan konektor ke aplikasi perusahaan, database, penyimpanan cloud, bus pesan, dan file lokal yang populer. Lihat Lakeflow Connect.
| Fitur | Deskripsi |
|---|---|
| Konektor yang Dikelola | Konektor terkelola menyediakan UI sederhana dan layanan penyerapan berbasis konfigurasi dengan overhead operasional minimum, tanpa mengharuskan Anda menggunakan API dan infrastruktur alur yang mendasar. |
| Konektor standar | Konektor standar menyediakan kemampuan untuk mengakses data dari berbagai sumber data dalam alur kerja Anda atau kueri yang lain. |
Alur Deklaratif Lakeflow Spark (SDP)
Lakeflow Spark Declarative Pipelines, atau SDP, adalah kerangka kerja deklaratif yang menurunkan kompleksitas membangun dan mengelola alur data batch dan streaming yang efisien. Lakeflow SDP memperluas serta mendukung interoperabilitas dengan Apache Spark Declarative Pipelines, sambil beroperasi pada Databricks Runtime yang telah dioptimalkan untuk kinerja. SDP secara otomatis mengatur eksekusi alur, sink, tabel streaming, dan tampilan materialisasi dengan merangkum dan menjalankannya sebagai alur. Lihat Alur Deklaratif Lakeflow Spark.
| Fitur | Deskripsi |
|---|---|
| Mengalir | Aliran mengolah data dalam pipa. API alur menggunakan API DataFrame yang sama dengan Apache Spark dan Streaming Terstruktur. Alur dapat menulis ke dalam tabel streaming dan sink, seperti topik Kafka, menggunakan semantik streaming, atau menulis ke tampilan materialis menggunakan semantik batch. |
| tabel streaming | Tabel streaming adalah tabel Delta dengan dukungan tambahan untuk pemrosesan data streaming atau inkremental. Ini bertindak sebagai target untuk satu atau beberapa aliran dalam alur. |
| tampilan material | Tampilan terwujud adalah tampilan dengan hasil yang disimpan dalam cache untuk akses yang lebih cepat. Tampilan terwujud berfungsi sebagai target untuk pipeline. |
| Wastafel | Alur mendukung sink data eksternal sebagai target. Sink ini dapat mencakup layanan streaming peristiwa, seperti Apache Kafka atau Azure Event Hubs, tabel eksternal yang dikelola oleh Unity Catalog, atau sink kustom yang ditentukan dalam Python. |
Pekerjaan Lakeflow
Layanan Lakeflow menyediakan orkestrasi yang andal dan pemantauan operasional untuk data dan beban kerja AI apa pun. Pekerjaan dapat terdiri dari satu atau beberapa tugas yang menjalankan notebook, pipeline, konektor terkelola, kueri SQL, pelatihan pembelajaran mesin, serta penyebaran dan inferensi model. Pekerjaan juga mendukung logika alur kontrol kustom, seperti percabangan dengan pernyataan if / else, dan pengulangan dengan pernyataan for each. Lihat Pekerjaan Lakeflow.
| Fitur | Deskripsi |
|---|---|
| Pekerjaan | Pekerjaan adalah sumber daya utama untuk orkestrasi. Mereka mewakili proses yang ingin Anda lakukan secara terjadwal. |
| Tugas | Unit kerja tertentu dalam pekerjaan. Ada berbagai jenis tugas yang memberi Anda berbagai opsi yang dapat dilakukan dalam pekerjaan. |
| Alur kontrol dalam pekerjaan | Tugas alur kontrol memungkinkan Anda mengontrol apakah akan menjalankan tugas lain, atau urutan tugas yang akan dijalankan. |
Runtime Databricks untuk Apache Spark.
Databricks Runtime adalah lingkungan komputasi yang andal dan dioptimalkan performa untuk menjalankan beban kerja Spark, termasuk batch dan streaming. Databricks Runtime menyediakan Photon, mesin kueri vektorisasi asli Databricks berperforma tinggi, dan berbagai pengoptimalan infrastruktur seperti penskalaan otomatis. Anda dapat menjalankan beban kerja Spark dan Streaming Terstruktur pada Runtime Databricks dengan membangun program Spark Anda sebagai notebook, JAR, atau roda Python. Lihat Databricks Runtime untuk Apache Spark.
| Fitur | Deskripsi |
|---|---|
| Apache Spark di Databricks | Spark adalah inti dari Databricks Data Intelligence Platform. |
| Streaming Terstruktur | Structured Streaming adalah mesin pemrosesan mendekati real-time dari Spark untuk data streaming. |
Apa yang terjadi dengan Delta Live Tables (DLT)?
Jika Anda terbiasa dengan Delta Live Tables (DLT), lihat Apa yang terjadi dengan Delta Live Tables (DLT)?.
Sumber daya tambahan
- Konsep rekayasa data menjelaskan konsep-konsep rekayasa data di Azure Databricks.
- Delta Lake adalah lapisan penyimpanan yang telah dioptimalkan yang menyediakan fondasi untuk tabel-tabel di lakehouse pada Azure Databricks.
- Praktik terbaik rekayasa data mengajarkan Anda tentang praktik terbaik untuk rekayasa data di Azure Databricks.
- Notebook Databricks adalah alat populer untuk kolaborasi dan pengembangan.
- Databricks SQL menjelaskan penggunaan kueri SQL dan alat BI di Azure Databricks.
- Databricks Mosaic AI menjelaskan merancang solusi pembelajaran mesin.