Menyerap data ke dalam databricks lakehouse

Artikel
03/01/2024

Azure Databricks menawarkan berbagai cara untuk membantu Anda menyerap data ke lakehouse yang didukung oleh Delta Lake. Databricks merekomendasikan penggunaan Auto Loader untuk penyerapan data bertahap dari penyimpanan objek cloud. UI tambahkan data menyediakan sejumlah opsi untuk mengunggah file lokal dengan cepat atau menyambungkan ke sumber data eksternal.

Menjalankan beban kerja ETL pertama Anda

Jika Anda belum menggunakan Auto Loader di Azure Databricks, mulailah dengan tutorial. Lihat Menjalankan beban kerja ETL pertama Anda di Azure Databricks.

Loader Otomatis

Auto Loader secara bertahap dan efisien memproses file data baru saat tiba di penyimpanan cloud tanpa penyiapan tambahan. Auto Loader menyediakan sumber Streaming Terstruktur yang disebut cloudFiles. Mengingat jalur direktori input pada penyimpanan file cloud, cloudFiles sumber secara otomatis memproses file baru saat mereka tiba, dengan opsi juga memproses file yang ada di direktori itu.

Mengotomatiskan ETL dengan Tabel Langsung Delta dan Auto Loader

Anda dapat menyederhanakan penyebaran infrastruktur penyerapan bertahap yang dapat diskalakan dengan Auto Loader dan Tabel Langsung Delta. Perhatikan bahwa Tabel Langsung Delta tidak menggunakan eksekusi interaktif standar yang ditemukan di notebook, sebagai gantinya menekankan penyebaran infrastruktur yang siap untuk produksi.

Mengunggah file data lokal atau menyambungkan sumber data eksternal

Anda dapat mengunggah file data lokal dengan aman atau menyerap data dari sumber eksternal untuk membuat tabel. Lihat Memuat data menggunakan UI tambahkan data.

Menyerap data ke Azure Databricks menggunakan alat pihak ketiga

Azure Databricks memvalidasi integrasi mitra teknologi yang memungkinkan Anda menyerap data ke Azure Databricks. Integrasi ini memungkinkan penyerapan data berkode rendah dan dapat diskalakan dari berbagai sumber ke Azure Databricks. Lihat Mitra teknologi. Beberapa mitra teknologi ditampilkan dalam Koneksi Mitra Databricks, yang menyediakan UI yang menyederhanakan menghubungkan alat pihak ketiga ke data lakehouse Anda.

SALIN KE DALAM

COPY INTO memungkinkan pengguna SQL untuk menyerap data secara idempotensi dan bertahap dari penyimpanan objek cloud ke dalam tabel Delta. Ini dapat digunakan dalam Databricks SQL, notebook, dan Databricks Jobs.

Kapan menggunakan COPY INTO dan kapan menggunakan Auto Loader

Berikut adalah beberapa hal yang perlu dipertimbangkan saat memilih antara Auto Loader dan COPY INTO:

Jika Anda akan menyerap file dalam urutan ribuan, Anda dapat menggunakan COPY INTO. Jika Anda mengharapkan file dalam urutan jutaan atau lebih dari waktu ke waktu, gunakan Auto Loader. Auto Loader memerlukan lebih sedikit operasi total untuk menemukan file dibandingkan COPY INTO dengan dan dapat membagi pemrosesan menjadi beberapa batch, yang berarti bahwa Auto Loader lebih murah dan lebih efisien dalam skala besar.
Jika skema data Anda akan sering berkembang, Auto Loader menyediakan primitif yang lebih baik seputar inferensi skema dan evolusi. Lihat Mengonfigurasi inferensi dan evolusi skema di Auto Loader untuk detail selengkapnya.
Memuat subset file yang diunggah ulang bisa sedikit lebih mudah dikelola dengan COPY INTO. Dengan Auto Loader, lebih sulit untuk memproses ulang subset file tertentu. Namun, Anda dapat menggunakan COPY INTO untuk memuat ulang subset file saat aliran Auto Loader berjalan secara bersamaan.
Untuk pengalaman penyerapan file yang lebih dapat diskalakan dan kuat, Auto Loader memungkinkan pengguna SQL memanfaatkan tabel streaming. Lihat Memuat data menggunakan tabel streaming di Databricks SQL.

Untuk ringkasan singkat dan demonstrasi Auto Loader, serta COPY INTO, tonton video YouTube berikut (2 menit).

Meninjau metadata file yang diambil selama penyerapan data

Apache Spark secara otomatis mengambil data tentang file sumber selama pemuatan data. Azure Databricks memungkinkan Anda mengakses data ini dengan kolom Metadata file.

Mengunggah ekspor lembar bentang ke Azure Databricks

Gunakan halaman Buat atau ubah tabel dari unggahan file untuk mengunggah file CSV, TSV, atau JSON. Lihat Membuat atau mengubah tabel menggunakan unggahan file.

Memigrasikan aplikasi data ke Azure Databricks

Migrasikan aplikasi data yang ada ke Azure Databricks sehingga Anda dapat bekerja dengan data dari banyak sistem sumber pada satu platform. Lihat Memigrasikan aplikasi data ke Azure Databricks.