Rekayasa data dengan Databricks

Databricks menyediakan Lakeflow, solusi rekayasa data end-to-end yang memberdayakan teknisi data, pengembang perangkat lunak, pengembang SQL, analis, dan ilmuwan data untuk memberikan data berkualitas tinggi untuk analitik hilir, AI, dan aplikasi operasional. Lakeflow adalah solusi terpadu untuk penyerapan, transformasi, dan orkestrasi data Anda, dan mencakup Lakeflow Connect, Lakeflow Spark Declarative Pipelines, dan Lakeflow Jobs.

Lakeflow Connect

Lakeflow Connect menyederhanakan penyerapan data dengan konektor ke aplikasi perusahaan, database, penyimpanan cloud, bus pesan, dan file lokal yang populer. Lihat Lakeflow Connect.

Fitur	Deskripsi
Konektor yang Dikelola	Konektor terkelola menyediakan UI sederhana dan layanan penyerapan berbasis konfigurasi dengan overhead operasional minimum, tanpa mengharuskan Anda menggunakan API dan infrastruktur alur yang mendasar.
Konektor standar	Konektor standar menyediakan kemampuan untuk mengakses data dari berbagai sumber data dalam alur kerja Anda atau kueri yang lain.

Alur Deklaratif Lakeflow Spark (SDP)

Lakeflow Spark Declarative Pipelines, atau SDP, adalah kerangka kerja deklaratif yang menurunkan kompleksitas membangun dan mengelola alur data batch dan streaming yang efisien. Lakeflow SDP memperluas serta mendukung interoperabilitas dengan Apache Spark Declarative Pipelines, sambil beroperasi pada Databricks Runtime yang telah dioptimalkan untuk kinerja. SDP secara otomatis mengatur eksekusi alur, sink, tabel streaming, dan tampilan materialisasi dengan merangkum dan menjalankannya sebagai alur. Lihat Alur Deklaratif Lakeflow Spark.

Fitur	Deskripsi
Mengalir	Aliran mengolah data dalam pipa. API alur menggunakan API DataFrame yang sama dengan Apache Spark dan Streaming Terstruktur. Alur dapat menulis ke dalam tabel streaming dan sink, seperti topik Kafka, menggunakan semantik streaming, atau menulis ke tampilan materialis menggunakan semantik batch.
tabel streaming	Tabel streaming adalah tabel Delta dengan dukungan tambahan untuk pemrosesan data streaming atau inkremental. Ini bertindak sebagai target untuk satu atau beberapa aliran dalam alur.
tampilan material	Tampilan terwujud adalah tampilan dengan hasil yang disimpan dalam cache untuk akses yang lebih cepat. Tampilan terwujud berfungsi sebagai target untuk pipeline.
Wastafel	Alur mendukung sink data eksternal sebagai target. Sink ini dapat mencakup layanan streaming peristiwa, seperti Apache Kafka atau Azure Event Hubs, tabel eksternal yang dikelola oleh Unity Catalog, atau sink kustom yang ditentukan dalam Python.

Pekerjaan Lakeflow

Layanan Lakeflow menyediakan orkestrasi yang andal dan pemantauan operasional untuk data dan beban kerja AI apa pun. Pekerjaan dapat terdiri dari satu atau beberapa tugas yang menjalankan notebook, pipeline, konektor terkelola, kueri SQL, pelatihan pembelajaran mesin, serta penyebaran dan inferensi model. Pekerjaan juga mendukung logika alur kontrol kustom, seperti percabangan dengan pernyataan if / else, dan pengulangan dengan pernyataan for each. Lihat Pekerjaan Lakeflow.

Fitur	Deskripsi
Pekerjaan	Pekerjaan adalah sumber daya utama untuk orkestrasi. Mereka mewakili proses yang ingin Anda lakukan secara terjadwal.
Tugas	Unit kerja tertentu dalam pekerjaan. Ada berbagai jenis tugas yang memberi Anda berbagai opsi yang dapat dilakukan dalam pekerjaan.
Alur kontrol dalam pekerjaan	Tugas alur kontrol memungkinkan Anda mengontrol apakah akan menjalankan tugas lain, atau urutan tugas yang akan dijalankan.

Runtime Databricks untuk Apache Spark.

Databricks Runtime adalah lingkungan komputasi yang andal dan dioptimalkan performa untuk menjalankan beban kerja Spark, termasuk batch dan streaming. Databricks Runtime menyediakan Photon, mesin kueri vektorisasi asli Databricks berperforma tinggi, dan berbagai pengoptimalan infrastruktur seperti penskalaan otomatis. Anda dapat menjalankan beban kerja Spark dan Streaming Terstruktur pada Runtime Databricks dengan membangun program Spark Anda sebagai notebook, JAR, atau roda Python. Lihat Databricks Runtime untuk Apache Spark.

Fitur	Deskripsi
Apache Spark di Databricks	Spark adalah inti dari Databricks Data Intelligence Platform.
Streaming Terstruktur	Structured Streaming adalah mesin pemrosesan mendekati real-time dari Spark untuk data streaming.

Apa yang terjadi dengan Delta Live Tables (DLT)?

Jika Anda terbiasa dengan Delta Live Tables (DLT), lihat Apa yang terjadi dengan Delta Live Tables (DLT)?.

Sumber daya tambahan

Konsep rekayasa data menjelaskan konsep-konsep rekayasa data di Azure Databricks.
Delta Lake adalah lapisan penyimpanan yang telah dioptimalkan yang menyediakan fondasi untuk tabel-tabel di lakehouse pada Azure Databricks.
Praktik terbaik rekayasa data mengajarkan Anda tentang praktik terbaik untuk rekayasa data di Azure Databricks.
Notebook Databricks adalah alat populer untuk kolaborasi dan pengembangan.
Databricks SQL menjelaskan penggunaan kueri SQL dan alat BI di Azure Databricks.
Databricks Mosaic AI menjelaskan merancang solusi pembelajaran mesin.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-01-23