Bagikan melalui


Mengambil data dari penyimpanan objek berbasis cloud

Artikel ini mencantumkan cara Anda dapat mengonfigurasi penyerapan inkremental dari penyimpanan objek cloud.

Tambah data UI

Untuk mempelajari cara menggunakan UI tambah data untuk membuat tabel terkelola dari data di penyimpanan objek cloud, lihat Memuat data menggunakan lokasi eksternal Katalog Unity.

Editor Notebook dan SQL

Bagian ini menjelaskan opsi untuk mengonfigurasi penyerapan inkremental dari penyimpanan objek cloud menggunakan notebook atau editor Databricks SQL.

Loader Otomatis

Auto Loader secara bertahap dan efisien memproses file data baru saat tiba di penyimpanan cloud tanpa penyiapan tambahan. Auto Loader menyediakan sumber Streaming Terstruktur yang disebut cloudFiles. Berdasarkan jalur direktori input pada penyimpanan file di cloud, cloudFiles sumber secara otomatis memproses file baru saat tiba, dengan opsi juga memproses file yang ada di direktori tersebut.

COPY INTO

Dengan COPY INTO, pengguna SQL dapat memasukkan data secara idempoten dan bertahap dari penyimpanan objek cloud ke dalam tabel Delta. Anda dapat menggunakan COPY INTO di Databricks SQL, notebook, dan Pekerjaan Lakeflow.

Kapan menggunakan COPY INTO dan kapan menggunakan Auto Loader

Berikut adalah beberapa hal yang perlu dipertimbangkan saat memilih antara Auto Loader dan COPY INTO:

  • Jika Anda akan memproses ribuan file seiring waktu, Anda dapat menggunakan COPY INTO. Jika Anda mengharapkan file dalam skala jutaan atau lebih seiring waktu, gunakan Auto Loader. Auto Loader memerlukan lebih sedikit operasi total untuk menemukan file dibandingkan COPY INTO dengan dan dapat membagi pemrosesan menjadi beberapa batch, yang berarti bahwa Auto Loader lebih murah dan lebih efisien dalam skala besar.
  • Jika skema data Anda akan sering berkembang, Auto Loader menyediakan jenis data primitif yang lebih baik di sekitar inferensi dan evolusi skema. Lihat Mengonfigurasi inferensi dan evolusi skema di Auto Loader untuk detail selengkapnya.
  • Memuat subset file yang diunggah ulang bisa sedikit lebih mudah dikelola dengan COPY INTO. Dengan Auto Loader, lebih sulit untuk memproses ulang subset file tertentu. Namun, Anda dapat menggunakan COPY INTO untuk memuat ulang subset file saat aliran Auto Loader berjalan secara bersamaan.

Untuk ringkasan singkat dan demonstrasi Auto Loader dan COPY INTO, tonton video YouTube berikut (2 menit).

Mengotomatiskan ETL dengan Alur Deklaratif Lakeflow dan Auto Loader

Anda dapat menyederhanakan penyebaran infrastruktur penyerapan bertahap yang dapat diskalakan dengan Auto Loader dan Lakeflow Declarative Pipelines. Lakeflow Declarative Pipelines tidak menggunakan eksekusi interaktif standar yang ditemukan di notebook, sebaliknya menekankan penyebaran infrastruktur yang siap untuk produksi.

  • Tabel streaming

Alat pemasukan data pihak ketiga

Databricks memvalidasi integrasi mitra teknologi yang memungkinkan Anda menyerap dari berbagai sumber, termasuk penyimpanan objek cloud. Integrasi ini memungkinkan penyerapan data berkode rendah dan dapat diskalakan dari berbagai sumber ke Azure Databricks. Lihat Mitra teknologi. Beberapa mitra teknologi ditampilkan di Apa itu Databricks Partner Connect?, yang menyediakan UI yang menyederhanakan menghubungkan alat pihak ketiga ke data lakehouse Anda.