Bagikan melalui


Memigrasikan gudang data Anda ke databricks lakehouse

Artikel ini menjelaskan beberapa pertimbangan dan peringatan yang perlu dipertimbangkan saat Anda mengganti gudang data perusahaan Anda dengan databricks lakehouse. Sebagian besar beban kerja, kueri, dan dasbor yang ditentukan dalam gudang data perusahaan dapat berjalan dengan pemfaktoran ulang kode minimal setelah admin menyelesaikan konfigurasi migrasi dan tata kelola data awal. Memigrasikan beban kerja pergudangan data Anda ke Azure Databricks bukan tentang menghilangkan pergudangan data, melainkan menyatukan ekosistem data Anda. Untuk informasi selengkapnya tentang pergudangan data di Databricks, lihat Apa itu pergudangan data di Azure Databricks?.

Banyak beban kerja Apache Spark mengekstrak, mengubah, dan memuat (ETL) data dari sistem sumber menjadi gudang data untuk memberdayakan analitik hilir. Mengganti gudang data perusahaan Anda dengan lakehouse memungkinkan analis, ilmuwan data, dan insinyur data untuk bekerja melawan tabel yang sama di platform yang sama, mengurangi kompleksitas keseluruhan, persyaratan pemeliharaan, dan total biaya kepemilikan. Lihat Apa itu data lakehouse?. Untuk informasi selengkapnya tentang pergudangan data di Databricks, lihat Apa itu pergudangan data di Azure Databricks?.

Memuat data ke lakehouse

Azure Databricks menyediakan sejumlah alat dan kemampuan untuk memudahkan migrasi data ke lakehouse dan mengonfigurasi pekerjaan ETL untuk memuat data dari berbagai sumber data. Artikel berikut memperkenalkan alat dan opsi ini:

Bagaimana Databricks Data Intelligence Platform berbeda dari gudang data perusahaan?

Platform Databricks Data Intelligence dibangun di atas Apache Spark, Unity Catalog, dan Delta Lake, memberikan dukungan asli untuk beban kerja big data untuk analitik, ML, dan rekayasa data. Semua sistem data perusahaan memiliki jaminan transaksi, pola pengindeksan dan pengoptimalan yang sedikit berbeda, dan sintaks SQL. Beberapa perbedaan terbesar yang mungkin Anda temukan meliputi yang berikut ini:

  • Semua transaksi adalah tingkat tabel. Tidak ada transaksi, kunci, atau jaminan tingkat database.
  • Tidak ada BEGIN konstruksi dan END , yang berarti setiap pernyataan atau kueri berjalan sebagai transaksi terpisah.
  • Tiga tingkat namespacing menggunakan catalog.schema.table pola. Istilah database dan schema identik karena sintaks Apache Spark warisan.
  • Batasan kunci primer dan kunci asing hanya bersifat informasi. Batasan hanya dapat diberlakukan pada tingkat tabel. Lihat Batasan di Azure Databricks.
  • Jenis data asli yang didukung di Azure Databricks dan Delta Lake mungkin sedikit berbeda dari sistem sumber. Presisi yang diperlukan untuk jenis numerik harus ditunjukkan dengan jelas sebelum jenis target dipilih.

Artikel berikut ini memberikan konteks tambahan tentang pertimbangan penting: