Apa itu Azure Databricks?
Azure Databricks adalah platform analitik terbuka terpadu untuk membangun, menyebarkan, berbagi, dan memelihara data, analitik, dan solusi AI tingkat perusahaan dalam skala besar. Platform Data Intelligence Databricks terintegrasi dengan penyimpanan dan keamanan cloud di akun cloud Anda, serta mengelola dan menyebarkan infrastruktur cloud atas nama Anda.
Bagaimana cara kerja platform inteligensi data?
Azure Databricks menggunakan AI generatif dengan data lakehouse untuk memahami semantik unik data Anda. Kemudian, secara otomatis mengoptimalkan performa dan mengelola infrastruktur agar sesuai dengan kebutuhan bisnis Anda.
Pemrosesan bahasa alami mempelajari bahasa bisnis Anda, sehingga Anda dapat mencari dan menemukan data dengan mengajukan pertanyaan dengan kata-kata Anda sendiri. Bantuan bahasa alami membantu Anda menulis kode, memecahkan masalah kesalahan, dan menemukan jawaban dalam dokumentasi.
Terakhir, data dan aplikasi AI Anda dapat mengandalkan tata kelola dan keamanan yang kuat. Anda dapat mengintegrasikan API seperti OpenAI tanpa mengorbankan privasi data dan kontrol IP.
Untuk apa Azure Databricks digunakan?
Azure Databricks menyediakan alat yang membantu Anda menghubungkan sumber data ke satu platform untuk memproses, menyimpan, berbagi, menganalisis, memodelkan, dan memonetisasi himpunan data dengan solusi dari BI ke AI generatif.
Ruang kerja Azure Databricks menyediakan antarmuka dan alat terpadu untuk sebagian besar tugas data, termasuk:
- Penjadwalan dan manajemen pemrosesan data, khususnya ETL
- Menghasilkan dasbor dan visualisasi
- Mengelola keamanan, tata kelola, ketersediaan tinggi, dan pemulihan bencana
- Penemuan, anotasi, dan eksplorasi data
- Pemodelan, pelacakan, dan penyajian model pembelajaran mesin (ML)
- Solusi AI generatif
Integrasi terkelola dengan sumber terbuka
Databricks memiliki komitmen yang kuat terhadap komunitas sumber terbuka. Databricks mengelola pembaruan integrasi sumber terbuka dalam rilis Databricks Runtime. Teknologi berikut adalah sumber terbuka proyek yang awalnya dibuat oleh karyawan Databricks:
Alat dan akses terprogram
Azure Databricks mempertahankan sejumlah alat kepemilikan yang mengintegrasikan dan memperluas teknologi ini untuk menambahkan performa yang dioptimalkan dan kemudahan penggunaan, seperti berikut ini:
Selain UI ruang kerja, Anda dapat berinteraksi dengan Azure Databricks secara terprogram dengan alat berikut:
- REST API
- CLI
- Terraform
Bagaimana cara kerja Azure Databricks dengan Azure?
Arsitektur platform Azure Databricks terdiri dari dua bagian utama:
- Infrastruktur yang digunakan oleh Azure Databricks untuk menyebarkan, mengonfigurasi, dan mengelola platform dan layanan.
- Infrastruktur milik pelanggan yang dikelola dalam kolaborasi oleh Azure Databricks dan perusahaan Anda.
Tidak seperti banyak perusahaan data perusahaan, Azure Databricks tidak memaksa Anda untuk memigrasikan data Anda ke dalam sistem penyimpanan kepemilikan untuk menggunakan platform. Sebagai gantinya, Anda mengonfigurasi ruang kerja Azure Databricks dengan mengonfigurasi integrasi aman antara platform Azure Databricks dan akun cloud Anda, lalu Azure Databricks menyebarkan kluster komputasi menggunakan sumber daya cloud di akun Anda untuk memproses dan menyimpan data dalam penyimpanan objek dan layanan terintegrasi lainnya yang Anda kontrol.
Katalog Unity lebih lanjut memperluas hubungan ini, memungkinkan Anda mengelola izin untuk mengakses data menggunakan sintaks SQL yang familier dari dalam Azure Databricks.
Ruang kerja Azure Databricks memenuhi persyaratan keamanan dan jaringan beberapa perusahaan terbesar dan paling berwawasan keamanan di dunia. Azure Databricks memudahkan pengguna baru untuk memulai di platform. Ini menghapus banyak beban dan kekhawatiran bekerja dengan infrastruktur cloud, tanpa membatasi penyesuaian dan kontrol data, operasi, dan tim keamanan yang berpengalaman membutuhkan.
Apa saja kasus penggunaan umum untuk Azure Databricks?
Kasus penggunaan di Azure Databricks bervariasi seperti data yang diproses pada platform dan banyak persona karyawan yang bekerja dengan data sebagai bagian inti dari pekerjaan mereka. Kasus penggunaan berikut menyoroti bagaimana pengguna di seluruh organisasi Anda dapat memanfaatkan Azure Databricks untuk menyelesaikan tugas yang penting untuk memproses, menyimpan, dan menganalisis data yang mendorong fungsi dan keputusan bisnis penting.
Membangun data lakehouse perusahaan
Data lakehouse menggabungkan kekuatan gudang data perusahaan dan data lake untuk mempercepat, menyederhanakan, dan menyatukan solusi data perusahaan. Teknisi data, ilmuwan data, analis, dan sistem produksi semuanya dapat menggunakan data lakehouse sebagai sumber kebenaran tunggal mereka, memungkinkan akses tepat waktu ke data yang konsisten dan mengurangi kompleksitas membangun, memelihara, dan menyinkronkan banyak sistem data terdistribusi. Lihat Apa itu data lakehouse?.
ETL dan rekayasa data
Baik Anda membuat dasbor atau mendukung aplikasi kecerdasan buatan, rekayasa data menyediakan tulang punggung untuk perusahaan yang ber sentris data dengan memastikan data tersedia, bersih, dan disimpan dalam model data yang memungkinkan penemuan dan penggunaan yang efisien. Azure Databricks menggabungkan kekuatan Apache Spark dengan Delta Lake dan alat kustom untuk memberikan pengalaman ETL (ekstrak, transformasi, muat) yang tidak tertandingi. Anda dapat menggunakan SQL, Python, dan Scala untuk menyusun logika ETL lalu mengatur penyebaran pekerjaan terjadwal hanya dengan beberapa klik.
Tabel Langsung Delta menyederhanakan ETL lebih jauh dengan mengelola dependensi antara himpunan data secara cerdas dan secara otomatis menyebarkan dan menskalakan infrastruktur produksi untuk memastikan pengiriman data yang tepat waktu dan akurat sesuai spesifikasi Anda.
Azure Databricks menyediakan sejumlah alat kustom untuk penyerapan data, termasuk Auto Loader, alat yang efisien dan dapat diskalakan untuk memuat data secara bertahap dan idempotik dari penyimpanan objek cloud dan data lake ke dalam data lakehouse.
Pembelajaran mesin, AI, dan ilmu data
Pembelajaran mesin Azure Databricks memperluas fungsionalitas inti platform dengan serangkaian alat yang disesuaikan dengan kebutuhan ilmuwan data dan insinyur ML, termasuk MLflow dan Databricks Runtime untuk Pembelajaran Mesin.
Model bahasa besar dan AI generatif
Databricks Runtime for Pembelajaran Mesin menyertakan pustaka seperti Hugging Face Transformers yang memungkinkan Anda mengintegrasikan model yang sudah dilatih sebelumnya atau pustaka sumber terbuka lainnya ke dalam alur kerja Anda. Integrasi Databricks MLflow memudahkan penggunaan layanan pelacakan MLflow dengan alur transformator, model, dan komponen pemrosesan. Selain itu, Anda dapat mengintegrasikan model atau solusi OpenAI dari mitra seperti John Snow Labs dalam alur kerja Databricks Anda.
Dengan Azure Databricks, Anda dapat menyesuaikan LLM pada data Anda untuk tugas spesifik Anda. Dengan dukungan alat sumber terbuka, seperti Hugging Face dan DeepSpeed, Anda dapat secara efisien mengambil LLM fondasi dan memulai pelatihan dengan data Anda sendiri untuk memiliki lebih banyak akurasi untuk domain dan beban kerja Anda.
Selain itu, Azure Databricks menyediakan fungsi AI yang dapat digunakan analis data SQL untuk mengakses model LLM, termasuk dari OpenAI, langsung dalam alur data dan alur kerja mereka. Lihat Fungsi AI di Azure Databricks.
Pergudangan data, analitik, dan BI
Azure Databricks menggabungkan UI yang mudah digunakan dengan sumber daya komputasi hemat biaya dan penyimpanan yang terjangkau dan dapat diskalakan tanpa batas untuk menyediakan platform yang kuat untuk menjalankan kueri analitik. Administrator mengonfigurasi kluster komputasi yang dapat diskalakan sebagai gudang SQL, memungkinkan pengguna akhir untuk menjalankan kueri tanpa khawatir tentang salah satu kompleksitas bekerja di cloud. Pengguna SQL dapat menjalankan kueri terhadap data di lakehouse menggunakan editor kueri SQL atau di buku catatan. Notebook mendukung Python, R, dan Scala selain SQL, dan memungkinkan pengguna untuk menyematkan visualisasi yang sama yang tersedia di dasbor warisan bersama tautan, gambar, dan komentar yang ditulis dalam markdown.
Tata kelola data dan berbagi data yang aman
Unity Catalog menyediakan model tata kelola data terpadu untuk data lakehouse. Administrator cloud mengonfigurasi dan mengintegrasikan izin kontrol akses kasar untuk Unity Catalog, lalu administrator Azure Databricks dapat mengelola izin untuk tim dan individu. Hak istimewa dikelola dengan daftar kontrol akses (ACL) melalui UI yang mudah digunakan atau sintaks SQL, sehingga memudahkan administrator database untuk mengamankan akses ke data tanpa perlu menskalakan manajemen akses identitas cloud-native (IAM) dan jaringan.
Katalog Unity membuat menjalankan analitik aman di cloud menjadi sederhana, dan menyediakan pembagian tanggung jawab yang membantu membatasi reskilling atau upskilling yang diperlukan untuk administrator dan pengguna akhir platform. Lihat Apakah itu Katalog Unity?.
Lakehouse membuat berbagi data dalam organisasi Anda semampu memberikan akses kueri ke tabel atau tampilan. Untuk berbagi di luar lingkungan aman Anda, Unity Catalog menampilkan versi terkelola Dari Berbagi Delta.
DevOps, CI/CD, dan orkestrasi tugas
Siklus hidup pengembangan untuk alur ETL, model ML, dan dasbor analitik masing-masing menyajikan tantangan unik mereka sendiri. Azure Databricks memungkinkan semua pengguna Anda memanfaatkan satu sumber data, yang mengurangi upaya duplikat dan pelaporan yang tidak sinkron. Dengan menyediakan serangkaian alat umum untuk penerapan versi, otomatisasi, penjadwalan, penyebaran kode dan sumber daya produksi, Anda dapat menyederhanakan overhead Untuk pemantauan, orkestrasi, dan operasi. Pekerjaan menjadwalkan notebook Azure Databricks, kueri SQL, dan kode arbitrer lainnya. Folder Git memungkinkan Anda menyinkronkan proyek Azure Databricks dengan sejumlah penyedia git populer. Untuk gambaran umum lengkap alat, lihat Alat pengembang.
Analitik real time dan streaming
Azure Databricks memanfaatkan Apache Spark Structured Streaming untuk bekerja dengan data streaming dan perubahan data bertahap. Streaming Terstruktur terintegrasi erat dengan Delta Lake, dan teknologi ini menyediakan fondasi untuk Delta Live Tables dan Auto Loader. Lihat Streaming di Azure Databricks.