Mengakses data Databricks menggunakan sistem eksternal

Halaman ini menyediakan gambaran umum fungsionalitas dan rekomendasi untuk membuat data dikelola dan diatur oleh Azure Databricks tersedia untuk sistem eksternal.

Pola-pola ini berfokus pada skenario di mana organisasi Anda perlu mengintegrasikan alat atau sistem tepercaya untuk Azure Databricks data. Jika Anda mencari panduan tentang berbagi data di luar organisasi Anda, lihat Berbagi data dan aset AI dengan aman.

Akses eksternal apa yang didukung Azure Databricks?

Azure Databricks merekomendasikan penggunaan Unity Catalog untuk mengatur semua aset data Anda. Unity Catalog menyediakan integrasi ke klien Delta Lake menggunakan unity REST API dan klien Apache Iceberg menggunakan katalog Iceberg REST. Untuk daftar lengkap integrasi yang didukung, lihat Integrasi Katalog Unity.

Tabel berikut ini menyediakan gambaran umum format dukungan dan pola akses untuk objek Katalog Unity.

Objek Katalog Unity Format yang didukung Pola akses
Tabel yang dikelola Danau Delta, Gunung Es Unity REST API, Iceberg REST Catalog, Delta Sharing
Tabel eksternal Danau Delta Unity REST API, katalog REST Iceberg, Delta Sharing, URI cloud
Tabel eksternal CSV, JSON, Avro, Parquet, ORC, teks Unity REST API, URI cloud
Volume eksternal Semua jenis data URI Cloud
Tabel asing* Danau Delta, Gunung Es Unity REST API, Katalog REST Iceberg (Pratinjau), Delta Sharing
Tabel asing* CSV, JSON, Avro, Parquet, ORC, teks Unity REST API, URI cloud

* Hanya tabel asing yang difederasi menggunakan federasi katalog yang didukung. Untuk menjamin pembacaan terbaru dari mesin eksternal pada tabel asing, pelanggan dapat secara berkala menyegarkan metadata menggunakan pekerjaan Lakeflow.

Untuk detail selengkapnya tentang objek Katalog Unity ini, lihat yang berikut ini:

Penjual kredensial Katalog Unity

Pengelolaan kredensial Unity Catalog memungkinkan pengguna untuk mengonfigurasi klien eksternal untuk mendapatkan hak istimewa pada data yang diatur oleh Azure Databricks. Klien Iceberg dan Delta dapat mendukung penyediaan kredensial. Lihat penyediaan kredensial Katalog Unity untuk akses sistem eksternal.

Mengakses tabel dengan klien Delta

Gunakan Unity REST API untuk membaca, menulis, dan membuat Tabel terkelola dan eksternal Unity Catalog yang didukung oleh Delta Lake dari klien Delta yang didukung. Lihat Mengakses tabel Databricks dari klien Delta.

Penting

Membuat dan menulis ke tabel terkelola Unity Catalog dari klien Delta ada di Beta.

Untuk tabel eksternal, Unity Catalog tidak mengatur baca dan tulis yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.

Nota

Dokumentasi Azure Databricks mencantumkan batasan dan pertimbangan kompatibilitas berdasarkan versi Databricks Runtime dan fitur platform. Anda harus mengonfirmasi protokol pembaca dan penulis dan fitur tabel apa yang didukung klien Anda. Lihat delta.io.

Mengakses tabel dengan klien Iceberg

Azure Databricks menyediakan klien Iceberg dengan membaca, menulis, dan membuat dukungan untuk tabel yang terdaftar di Unity Catalog. Klien yang didukung termasuk Apache Spark, Apache Flink, Trino, dan Snowflake. Lihat tabel Access Azure Databricks dari klien Apache Iceberg.

Berbagi tabel baca-saja di seluruh domain

Anda dapat menggunakan Pembagian Delta untuk memberikan akses baca-saja ke tabel Delta terkelola atau eksternal antar domain dan sistem yang didukung. Sistem perangkat lunak yang mendukung pembacaan tanpa penyalinan tabel Delta Sharing termasuk SAP, Amperity, dan Oracle. Lihat Berbagi data dan aset AI dengan aman.

Nota

Anda juga dapat menggunakan Berbagi Delta untuk memberikan akses baca-saja kepada pelanggan atau mitra. Berbagi Delta juga mendukung data yang dibagikan menggunakan Marketplace Databricks .

Mengakses data tabular non-Delta Lake dengan tabel eksternal

Tabel eksternal Unity Catalog mendukung banyak format selain Delta Lake, termasuk Parquet, ORC, CSV, dan JSON. Tabel eksternal menyimpan semua file data dalam direktori di lokasi penyimpanan objek cloud yang ditentukan oleh URI cloud yang disediakan selama pembuatan tabel. Sistem lain mengakses file data ini langsung dari penyimpanan objek cloud.

Katalog Unity tidak mengatur pembacaan dan penulisan yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.

Membaca dan menulis ke tabel eksternal dari beberapa sistem dapat menyebabkan masalah konsistensi dan kerusakan data karena tidak ada jaminan transaksional yang disediakan untuk format selain Delta Lake.

Katalog Unity mungkin tidak dapat mendeteksi partisi baru yang ditulis ke tabel eksternal yang didukung oleh format selain Delta Lake. Databricks merekomendasikan untuk menjalankan MSCK REPAIR TABLE table_name secara teratur untuk memastikan Unity Catalog telah mendaftarkan semua file data yang ditulis oleh sistem eksternal.

Mengakses data non-tabular dengan volume eksternal

Databricks merekomendasikan penggunaan volume eksternal untuk menyimpan file data non-tabular yang dibaca atau ditulis oleh sistem eksternal selain Azure Databricks. Lihat Apa itu Unity Catalog volumes?.

Katalog Unity tidak mengatur pembacaan dan penulisan yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.

Volume menyediakan API, SDK, dan alat lain untuk mendapatkan file dari dan memasukkan file ke dalam volume. Lihat Mengelola file pada volume Katalog Unity.

Nota

Berbagi Delta memungkinkan Anda berbagi volume data dengan akun Azure Databricks lain, namun tidak terintegrasi dengan sistem eksternal.