Memigrasikan gudang data Anda ke databricks lakehouse
Artikel ini menjelaskan beberapa pertimbangan dan peringatan yang perlu dipertimbangkan saat Anda mengganti gudang data perusahaan Anda dengan databricks lakehouse. Sebagian besar beban kerja, kueri, dan dasbor yang ditentukan dalam gudang data perusahaan dapat berjalan dengan pemfaktoran ulang kode minimal setelah admin menyelesaikan konfigurasi migrasi dan tata kelola data awal. Memigrasikan beban kerja pergudangan data Anda ke Azure Databricks bukan tentang menghilangkan pergudangan data, melainkan menyatukan ekosistem data Anda. Untuk informasi selengkapnya tentang pergudangan data di Databricks, lihat Apa itu pergudangan data di Azure Databricks?.
Banyak beban kerja Apache Spark mengekstrak, mengubah, dan memuat (ETL) data dari sistem sumber menjadi gudang data untuk memberdayakan analitik hilir. Mengganti gudang data perusahaan Anda dengan lakehouse memungkinkan analis, ilmuwan data, dan insinyur data untuk bekerja melawan tabel yang sama di platform yang sama, mengurangi kompleksitas keseluruhan, persyaratan pemeliharaan, dan total biaya kepemilikan. Lihat Apa itu data lakehouse?. Untuk informasi selengkapnya tentang pergudangan data di Databricks, lihat Apa itu pergudangan data di Azure Databricks?.
Memuat data ke lakehouse
Azure Databricks menyediakan sejumlah alat dan kemampuan untuk memudahkan migrasi data ke lakehouse dan mengonfigurasi pekerjaan ETL untuk memuat data dari berbagai sumber data. Artikel berikut memperkenalkan alat dan opsi ini:
- Memigrasikan data lake Parquet ke Delta Lake
- Apa itu Federasi Lakehouse
- Apa itu Koneksi Mitra Databricks?
- Menyerap data ke dalam databricks lakehouse
- Apa itu Tabel Langsung Delta?
Bagaimana Databricks Data Intelligence Platform berbeda dari gudang data perusahaan?
Platform Databricks Data Intelligence dibangun di atas Apache Spark, Unity Catalog, dan Delta Lake, memberikan dukungan asli untuk beban kerja big data untuk analitik, ML, dan rekayasa data. Semua sistem data perusahaan memiliki jaminan transaksi, pola pengindeksan dan pengoptimalan yang sedikit berbeda, dan sintaks SQL. Beberapa perbedaan terbesar yang mungkin Anda temukan meliputi yang berikut ini:
- Semua transaksi adalah tingkat tabel. Tidak ada transaksi, kunci, atau jaminan tingkat database.
- Tidak ada
BEGIN
konstruksi danEND
, yang berarti setiap pernyataan atau kueri berjalan sebagai transaksi terpisah. - Tiga tingkat namespacing menggunakan
catalog.schema.table
pola. Istilahdatabase
danschema
identik karena sintaks Apache Spark warisan. - Batasan kunci primer dan kunci asing hanya bersifat informasi. Batasan hanya dapat diberlakukan pada tingkat tabel. Lihat Batasan di Azure Databricks.
- Jenis data asli yang didukung di Azure Databricks dan Delta Lake mungkin sedikit berbeda dari sistem sumber. Presisi yang diperlukan untuk jenis numerik harus ditunjukkan dengan jelas sebelum jenis target dipilih.
Artikel berikut ini memberikan konteks tambahan tentang pertimbangan penting: