Pendahuluan

Selesai

Azure Databricks adalah platform data berbasis cloud yang menyaingkan rekayasa data, ilmu data, dan pembelajaran mesin terbaik dalam satu ruang kerja terpadu. Dibangun di atas Apache Spark, memungkinkan organisasi untuk dengan mudah memproses, menganalisis, dan memvisualisasikan sejumlah besar data secara real time.

Diagram memperlihatkan Gambaran Umum Azure Databricks.

Dengan menyambungkan ke berbagai sumber data—dari penyedia cloud seperti Azure SQL Database, Amazon S3, dan Google Cloud Storage, ke sistem perusahaan seperti SAP dan Oracle—Azure Databricks memudahkan untuk mengintegrasikan dan mengubah data dari mana saja.

Setelah data diserap, tim di seluruh penjualan, pemasaran, operasi, keuangan, SDM, dan keberlanjutan dapat menggunakan Databricks untuk analitik tingkat lanjut, pembelajaran mesin, kecerdasan bisnis, dan wawasan berbasis AI.

Pada intinya, Azure Databricks membantu organisasi:

  • Mengintegrasikan data dari beberapa sumber
  • Insinyur dan ubah data mentah menjadi format yang dapat digunakan
  • Menyimpan dan mengelola data secara efisien dengan tata kelola dan keamanan
  • Menerapkan analitik real-time, pembelajaran mesin, dan model Kecerdasan Buatan
  • Mendorong keputusan dan hasil bisnis yang lebih baik

Data Lakehouse

Data lakehouse adalah pendekatan manajemen data yang memadukan kekuatan data lake dan gudang data. Ini menawarkan penyimpanan dan pemrosesan yang dapat diskalakan, memungkinkan organisasi untuk menangani berbagai beban kerja —seperti pembelajaran mesin dan kecerdasan bisnis—tanpa mengandalkan sistem terpisah dan terputus. Dengan memusatkan data, lakehouse mendukung satu sumber kebenaran, mengurangi biaya duplikat, dan memastikan bahwa informasi tetap terbaru.

Banyak lakehouse mengikuti pola desain bertingkat di mana data secara bertahap ditingkatkan, diperkaya, dan disempurnakan saat melewati berbagai tahap pemrosesan. Pendekatan berlapis ini—umumnya disebut arsitektur medali—mengatur data ke dalam tahapan yang dibangun satu sama lain, sehingga lebih mudah dikelola dan digunakan secara efektif.

Databricks lakehouse menggunakan dua teknologi utama:

  • Delta Lake: lapisan penyimpanan yang dioptimalkan yang mendukung transaksi ACID dan penegakan skema.
  • Katalog Unity: solusi tata kelola terpadu dan halus untuk data dan AI.