Bagikan melalui


Mengakses data Databricks menggunakan sistem eksternal

Halaman ini menyediakan gambaran umum fungsionalitas dan rekomendasi untuk membuat data dikelola dan diatur oleh Azure Databricks tersedia untuk sistem lain.

Pola-pola ini berfokus pada skenario di mana organisasi Anda perlu mengintegrasikan alat atau sistem tepercaya ke data Azure Databricks. Jika Anda mencari panduan tentang berbagi data di luar organisasi Anda, lihat Berbagi data dan aset AI dengan aman.

Akses eksternal apa yang didukung Azure Databricks?

Azure Databricks merekomendasikan penggunaan Unity Catalog untuk mengatur semua aset data Anda. Unity Catalog menyediakan integrasi ke klien Delta Lake menggunakan unity REST API dan klien Apache Iceberg menggunakan katalog Iceberg REST. Untuk daftar lengkap integrasi yang didukung, lihat Integrasi Katalog Unity.

Tabel berikut ini menyediakan gambaran umum format dukungan dan pola akses untuk objek Katalog Unity.

Objek Katalog Unity Format yang didukung Pola akses
Tabel yang dikelola Danau Delta, Gunung Es Unity REST API, Iceberg REST Catalog, Delta Sharing
Tabel eksternal Danau Delta Unity REST API, katalog REST Iceberg, Delta Sharing, URI cloud
Tabel eksternal CSV, JSON, Avro, Parquet, ORC, teks Unity REST API, URI cloud
Volume eksternal Semua jenis data URI Cloud
Tabel asing* Danau Delta, Gunung Es Unity REST API, Katalog REST Iceberg (Pratinjau), Delta Sharing
Tabel asing* CSV, JSON, Avro, Parquet, ORC, teks Unity REST API, URI cloud

* Hanya tabel asing yang difederasi menggunakan federasi katalog yang didukung. Untuk menjamin pembacaan terbaru dari mesin eksternal pada tabel asing, pelanggan dapat secara berkala menyegarkan metadata menggunakan pekerjaan Lakeflow.

Nota

Dukungan Iceberg merujuk pada tabel yang dibuat oleh Azure Databricks menggunakan Delta Lake, tetapi dengan pembacaan Iceberg (UniForm) diaktifkan.

Untuk detail selengkapnya tentang objek Katalog Unity ini, lihat yang berikut ini:

Penjual kredensial Katalog Unity

Penjual kredensial Unity Catalog memungkinkan pengguna untuk mengonfigurasi klien eksternal untuk mewarisi hak istimewa pada data yang diatur oleh Azure Databricks. Klien Iceberg dan Delta dapat mendukung penyediaan kredensial. Lihat penyediaan kredensial Katalog Unity untuk akses sistem eksternal.

Membaca tabel dengan klien Delta

Gunakan Unity REST API untuk membaca tabel yang dikelola dan eksternal di dalam Unity Catalog yang didukung oleh Delta Lake dari klien Delta yang kompatibel. Lihat Membaca tabel Databricks dari klien Delta.

Membaca tabel dengan klien Iceberg

Azure Databricks menyediakan dukungan baca-saja kepada klien Iceberg untuk tabel yang terdaftar di Unity Catalog. Klien yang didukung termasuk Apache Spark, Apache Flink, Trino, dan Snowflake. Lihat Mengakses tabel Azure Databricks dari klien Apache Iceberg.

Berbagi tabel baca-saja di seluruh domain

Anda dapat menggunakan Pembagian Delta untuk memberikan akses baca-saja ke tabel Delta terkelola atau eksternal antar domain dan sistem yang didukung. Sistem perangkat lunak yang mendukung pembacaan tanpa penyalinan tabel Delta Sharing termasuk SAP, Amperity, dan Oracle. Lihat Berbagi data dan aset AI dengan aman.

Nota

Anda juga dapat menggunakan Berbagi Delta untuk memberikan akses baca-saja kepada pelanggan atau mitra. Berbagi Delta juga mendukung data yang dibagikan menggunakan Marketplace Databricks .

Membuat, membaca, dan menulis tabel Delta eksternal

Penting

Membuat tabel eksternal Unity Catalog dari klien Delta Lake eksternal ada di Pratinjau Umum.

Anda dapat membuat, membaca, dan menulis tabel eksternal Unity Catalog yang didukung oleh Delta Lake dari klien Delta Lake eksternal menggunakan URI penyimpanan objek cloud dan kredensial. Untuk membuat tabel, lihat Membuat tabel Delta eksternal dari klien eksternal.

Katalog Unity tidak mengatur pembacaan dan penulisan yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.

Nota

Dokumentasi Azure Databricks mencantumkan batasan dan pertimbangan kompatibilitas berdasarkan versi Databricks Runtime dan fitur platform. Anda harus mengonfirmasi protokol pembaca dan penulis dan fitur tabel apa yang didukung klien Anda. Lihat delta.io.

Mengakses data tabular non-Delta Lake dengan tabel eksternal

Tabel eksternal Unity Catalog mendukung banyak format selain Delta Lake, termasuk Parquet, ORC, CSV, dan JSON. Tabel eksternal menyimpan semua file data dalam direktori di lokasi penyimpanan objek cloud yang ditentukan oleh URI cloud yang disediakan selama pembuatan tabel. Sistem lain mengakses file data ini langsung dari penyimpanan objek cloud.

Katalog Unity tidak mengatur pembacaan dan penulisan yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.

Membaca dan menulis ke tabel eksternal dari beberapa sistem dapat menyebabkan masalah konsistensi dan kerusakan data karena tidak ada jaminan transaksional yang disediakan untuk format selain Delta Lake.

Katalog Unity mungkin tidak dapat mendeteksi partisi baru yang ditulis ke tabel eksternal yang didukung oleh format selain Delta Lake. Databricks merekomendasikan untuk menjalankan MSCK REPAIR TABLE table_name secara teratur untuk memastikan Unity Catalog telah mendaftarkan semua file data yang ditulis oleh sistem eksternal.

Mengakses data non-tabular dengan volume eksternal

Databricks merekomendasikan penggunaan volume eksternal untuk menyimpan file data non-tabular yang dibaca atau ditulis oleh sistem eksternal selain Azure Databricks. Lihat Apa itu Unity Catalog volumes?.

Katalog Unity tidak mengatur pembacaan dan penulisan yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.

Volume menyediakan API, SDK, dan alat lain untuk mendapatkan file dari dan memasukkan file ke dalam volume. Lihat Mengelola file pada volume Katalog Unity.

Nota

Delta Sharing memungkinkan Anda berbagi volume dengan akun Azure Databricks lainnya, tetapi tidak berintegrasi dengan sistem eksternal.