Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini mencantumkan cara Anda dapat mengonfigurasi penyerapan inkremental dari penyimpanan objek cloud.
Tambah data UI
Untuk mempelajari cara menggunakan UI tambah data untuk membuat tabel terkelola dari data di penyimpanan objek cloud, lihat Memuat data menggunakan lokasi eksternal Katalog Unity.
Editor Notebook dan SQL
Bagian ini menjelaskan opsi untuk mengonfigurasi penyerapan inkremental dari penyimpanan objek cloud menggunakan notebook atau editor Databricks SQL.
Loader Otomatis
Auto Loader secara bertahap dan efisien memproses file data baru saat tiba di penyimpanan cloud tanpa penyiapan tambahan. Auto Loader menyediakan sumber Streaming Terstruktur yang disebut cloudFiles
. Berdasarkan jalur direktori input pada penyimpanan file di cloud, cloudFiles
sumber secara otomatis memproses file baru saat tiba, dengan opsi juga memproses file yang ada di direktori tersebut.
COPY INTO
Dengan COPY INTO, pengguna SQL dapat memasukkan data secara idempoten dan bertahap dari penyimpanan objek cloud ke dalam tabel Delta. Anda dapat menggunakan COPY INTO
di Databricks SQL, notebook, dan Pekerjaan Lakeflow.
Kapan menggunakan COPY INTO dan kapan menggunakan Auto Loader
Berikut adalah beberapa hal yang perlu dipertimbangkan saat memilih antara Auto Loader dan COPY INTO
:
- Jika Anda akan memproses ribuan file seiring waktu, Anda dapat menggunakan
COPY INTO
. Jika Anda mengharapkan file dalam skala jutaan atau lebih seiring waktu, gunakan Auto Loader. Auto Loader memerlukan lebih sedikit operasi total untuk menemukan file dibandingkanCOPY INTO
dengan dan dapat membagi pemrosesan menjadi beberapa batch, yang berarti bahwa Auto Loader lebih murah dan lebih efisien dalam skala besar. - Jika skema data Anda akan sering berkembang, Auto Loader menyediakan jenis data primitif yang lebih baik di sekitar inferensi dan evolusi skema. Lihat Mengonfigurasi inferensi dan evolusi skema di Auto Loader untuk detail selengkapnya.
- Memuat subset file yang diunggah ulang bisa sedikit lebih mudah dikelola dengan
COPY INTO
. Dengan Auto Loader, lebih sulit untuk memproses ulang subset file tertentu. Namun, Anda dapat menggunakanCOPY INTO
untuk memuat ulang subset file saat aliran Auto Loader berjalan secara bersamaan.
- Untuk pengalaman penyerapan file yang lebih dapat diskalakan dan kuat, Auto Loader memungkinkan pengguna SQL memanfaatkan tabel streaming. Lihat Menggunakan tabel streaming di Databricks SQL.
Untuk ringkasan singkat dan demonstrasi Auto Loader dan COPY INTO
, tonton video YouTube berikut (2 menit).
Mengotomatiskan ETL dengan Alur Deklaratif Lakeflow dan Auto Loader
Anda dapat menyederhanakan penyebaran infrastruktur penyerapan bertahap yang dapat diskalakan dengan Auto Loader dan Lakeflow Declarative Pipelines. Lakeflow Declarative Pipelines tidak menggunakan eksekusi interaktif standar yang ditemukan di notebook, sebaliknya menekankan penyebaran infrastruktur yang siap untuk produksi.
- Tutorial: Membangun alur ETL dengan Alur Deklaratif Lakeflow
- Memasukkan data dari Azure Data Lake Storage
- Tabel streaming
Alat pemasukan data pihak ketiga
Databricks memvalidasi integrasi mitra teknologi yang memungkinkan Anda menyerap dari berbagai sumber, termasuk penyimpanan objek cloud. Integrasi ini memungkinkan penyerapan data berkode rendah dan dapat diskalakan dari berbagai sumber ke Azure Databricks. Lihat Mitra teknologi. Beberapa mitra teknologi ditampilkan di Apa itu Databricks Partner Connect?, yang menyediakan UI yang menyederhanakan menghubungkan alat pihak ketiga ke data lakehouse Anda.