Bagikan melalui


Cakupan platform lakehouse

Kerangka kerja platform data dan AI modern

Untuk membahas cakupan Platform kecerdasan Databricks Data, sangat membantu untuk terlebih dahulu menentukan kerangka kerja dasar untuk data modern dan platform AI:

Kerangka kerja analitik data cloud

Gambaran umum cakupan lakehouse

Platform Data Intelligence Databricks mencakup kerangka kerja platform data modern lengkap. Ini dibangun di atas arsitektur lakehouse dan didukung oleh mesin kecerdasan data yang memahami kualitas unik data Anda. Ini adalah fondasi terbuka dan terpadu untuk beban kerja ETL, ML/AI, dan DWH/BI, dan memiliki Katalog Unity sebagai data pusat dan solusi tata kelola AI.

Persona kerangka kerja platform

Kerangka kerja mencakup anggota tim data utama (persona) yang bekerja dengan aplikasi dalam kerangka kerja:

  • Teknisi data menyediakan ilmuwan data dan analis bisnis dengan data yang akurat dan dapat direproduksi untuk pengambilan keputusan dan wawasan real time yang tepat waktu. Mereka menerapkan proses ETL yang sangat konsisten dan andal untuk meningkatkan kepercayaan pengguna dan kepercayaan pada data. Mereka memastikan bahwa data terintegrasi dengan baik dengan berbagai pilar bisnis dan biasanya mengikuti praktik terbaik rekayasa perangkat lunak.
  • Ilmuwan data memadukan keahlian analitik dan pemahaman bisnis untuk mengubah data menjadi wawasan strategis dan model prediktif. Mereka mahir menerjemahkan tantangan bisnis ke dalam solusi berbasis data, baik itu melalui wawasan analitik retrospektif atau pemodelan prediktif berwawasan ke depan. Memanfaatkan pemodelan data dan teknik pembelajaran mesin, mereka merancang, mengembangkan, dan menyebarkan model yang mengungkap pola, tren, dan prakiraan dari data. Mereka bertindak sebagai jembatan, mengonversi narasi data yang kompleks menjadi cerita yang dapat dipahami, memastikan pemangku kepentingan bisnis tidak hanya memahami tetapi juga dapat bertindak berdasarkan rekomendasi berbasis data, pada gilirannya mendorong pendekatan yang berpusat pada data untuk pemecahan masalah dalam organisasi.
  • Teknisi ML (teknisi pembelajaran mesin) memimpin penerapan praktis ilmu data dalam produk dan solusi dengan membangun, menyebarkan, dan memelihara model pembelajaran mesin. Fokus utama mereka mengarah pada aspek rekayasa pengembangan dan penyebaran model. Teknisi ML memastikan ketahanan, keandalan, dan skalabilitas sistem pembelajaran mesin di lingkungan langsung, mengatasi tantangan yang terkait dengan kualitas data, infrastruktur, dan performa. Dengan mengintegrasikan model AI dan ML ke dalam proses bisnis operasional dan produk yang menghadap pengguna, mereka memfasilitasi pemanfaatan ilmu data dalam memecahkan tantangan bisnis, memastikan model tidak hanya tetap dalam penelitian tetapi mendorong nilai bisnis yang nyata.
  • Analis bisnis memberdayakan pemangku kepentingan dan tim bisnis dengan data yang dapat ditindaklanjuti. Mereka sering menginterpretasikan data dan membuat laporan atau dokumentasi lain untuk kepemimpinan menggunakan alat BI standar. Mereka biasanya merupakan titik kontak untuk kolega bisnis dan operasi non-teknis untuk pertanyaan analisis cepat.
  • Mitra bisnis adalah pemangku kepentingan penting di dunia bisnis yang semakin jaringan. Mereka didefinisikan sebagai perusahaan atau individu yang memiliki hubungan formal untuk mencapai tujuan bersama, dan dapat mencakup vendor, pemasok, distributor, dan mitra pihak ketiga lainnya. Berbagi data adalah aspek penting dari kemitraan bisnis, karena memungkinkan transfer dan pertukaran data untuk meningkatkan kolaborasi dan pengambilan keputusan berbasis data.

Domain kerangka kerja platform

Platform ini terdiri dari beberapa domain:

  • Penyimpanan: Di cloud, data terutama disimpan dalam penyimpanan objek yang dapat diskalakan, efisien, dan tangguh pada penyedia cloud.

  • Tata kelola: Kemampuan sekeliling tata kelola data, seperti kontrol akses, audit, manajemen metadata, pelacakan silsilah data, dan pemantauan untuk semua data dan aset AI.

  • Mesin AI: Mesin AI menyediakan kemampuan AI generatif untuk seluruh platform.

  • Penyerapan &transformasi: Kemampuan untuk beban kerja ETL.

  • Analitik tingkat lanjut, ML, dan AI: Semua kemampuan sekeliling pembelajaran mesin, AI, AI Generatif, dan juga analitik streaming.

  • Gudang data: Domain yang mendukung kasus penggunaan DWH dan BI.

  • Orkestrasi: Manajemen alur kerja pusat pemrosesan data, pembelajaran mesin, dan alur analitik.

  • Alat ETL &DS: Alat front-end yang terutama digunakan oleh teknisi data, ilmuwan data, dan insinyur ML untuk bekerja.

  • Alat BI: Alat front-end yang terutama digunakan analis BI untuk bekerja.

  • Kolaborasi: Kemampuan untuk berbagi data antara dua pihak atau lebih.

Cakupan Platform Databricks

Platform Inteligensi Databricks dan komponennya dapat dipetakan ke kerangka kerja dengan cara berikut:

Cakupan lakehouse

Unduh: Cakupan komponen lakehouse - Databricks

Beban kerja data di Azure Databricks

Yang terpenting, Platform Databricks Data Intelligence mencakup semua beban kerja yang relevan untuk domain data dalam satu platform, dengan Apache Spark/Photon sebagai mesin:

  • Penyerapan & transformasi

    Untuk penyerapan data, Auto Loader secara bertahap dan otomatis memproses pendaratan file di penyimpanan cloud dalam pekerjaan terjadwal atau berkelanjutan - tanpa perlu mengelola informasi status. Setelah diserap, data mentah perlu diubah sehingga siap untuk BI dan ML/AI. Databricks menyediakan kemampuan ETL yang kuat untuk insinyur data, ilmuwan data, dan analis.

    Delta Live Tables (DLT) memungkinkan pekerjaan ETL ditulis dengan cara deklaratif, menyederhanakan seluruh proses implementasi. Kualitas data dapat ditingkatkan dengan menentukan ekspektasi data.

  • Analitik tingkat lanjut, ML, dan AI

    Platform ini mencakup Databricks Mosaic AI, satu set pembelajaran mesin dan alat AI yang terintegrasi sepenuhnya untuk mesin klasik dan pembelajaran mendalam serta AI generatif dan model bahasa besar (LLM). Ini mencakup seluruh alur kerja dari menyiapkan data untuk membangun pembelajaran mesin dan model pembelajaran mendalam, hingga Mosaic AI Model Serving.

    Spark Structured Streaming dan DLT mengaktifkan analitik real-time.

  • Gudang data

    Platform Databricks Data Intelligence juga memiliki solusi gudang data lengkap dengan Databricks SQL, yang diatur secara terpusat oleh Unity Catalog dengan kontrol akses terperintah.

Kerangka area fitur Azure Databricks

Ini adalah pemetaan fitur Databricks Data Intelligence Platform ke lapisan lain dari kerangka kerja, dari bawah ke atas:

  • Penyimpanan cloud

    Semua data untuk lakehouse disimpan di penyimpanan objek penyedia cloud. Databricks mendukung tiga penyedia cloud: AWS, Azure, dan GCP. File dalam berbagai format terstruktur dan semi terstruktur (misalnya, Parquet, CSV, JSON, dan Avro) serta format yang tidak terstruktur (seperti gambar dan dokumen) diserap dan diubah menggunakan proses batch atau streaming.

    Delta Lake adalah format data yang direkomendasikan untuk lakehouse (transaksi file, keandalan, konsistensi, pembaruan, dan sebagainya) dan sepenuhnya sumber terbuka untuk menghindari penguncian. Dan Delta Universal Format (UniForm) memungkinkan Anda membaca tabel Delta dengan klien pembaca Iceberg.

    Tidak ada format data kepemilikan yang digunakan dalam Platform Kecerdasan Data Databricks.

  • Tata kelola data

    Selain lapisan penyimpanan, Unity Catalog menawarkan berbagai kemampuan tata kelola data, termasuk manajemen metadata di metastore, kontrol akses, audit, penemuan data, silsilah data.

    Pemantauan Lakehouse menyediakan metrik kualitas siap pakai untuk data dan aset AI, dan dasbor yang dihasilkan secara otomatis untuk memvisualisasikan metrik ini.

    Sumber SQL eksternal dapat diintegrasikan ke dalam lakehouse dan Unity Catalog melalui federasi lakehouse.

  • Mesin AI

    Platform Inteligensi Data dibangun di atas arsitektur lakehouse dan ditingkatkan oleh mesin inteligensi data DatabricksIQ. DatabricksIQ menggabungkan AI generatif dengan manfaat penyatuan arsitektur lakehouse untuk memahami semantik unik data Anda. Pencarian Cerdas dan Asisten Databricks adalah contoh layanan yang didukung AI yang menyederhanakan bekerja dengan platform untuk setiap pengguna.

  • Orkestrasi

    Pekerjaan Databricks memungkinkan Anda menjalankan beragam beban kerja untuk data lengkap dan siklus hidup AI di cloud apa pun. Mereka memungkinkan Anda untuk mengatur pekerjaan serta Tabel Langsung Delta untuk SQL, Spark, notebook, DBT, model ML, dan banyak lagi.

  • Alat ETL & DS

    Pada lapisan konsumsi, teknisi data dan teknisi ML biasanya bekerja dengan platform menggunakan IDE. Ilmuwan data sering lebih suka notebook dan menggunakan runtime ML &AI, dan sistem alur kerja pembelajaran mesin MLflow untuk melacak eksperimen dan mengelola siklus hidup model.

  • Alat BI

    Analis bisnis biasanya menggunakan alat BI pilihan mereka untuk mengakses gudang data Databricks. Databricks SQL dapat dikueri oleh berbagai alat Analisis dan BI, lihat BI dan visualisasi

    Selain itu, platform ini menawarkan alat kueri dan analisis di luar kotak:

    • Dasbor untuk menyeret dan meletakkan visualisasi data dan berbagi wawasan.
    • Editor SQL untuk analis SQL untuk menganalisis data.
  • Kolaborasi

    Berbagi Delta adalah protokol terbuka yang dikembangkan oleh Databricks untuk berbagi data yang aman dengan organisasi lain terlepas dari platform komputasi yang mereka gunakan.

    Databricks Marketplace adalah forum terbuka untuk bertukar produk data. Ini memanfaatkan Berbagi Delta untuk memberi penyedia data alat untuk berbagi produk data dengan aman dan konsumen data kekuatan untuk menjelajahi dan memperluas akses mereka ke data dan layanan data yang mereka butuhkan.