Bagikan melalui


Menyambungkan ke sumber data dan layanan eksternal

Halaman ini memberikan rekomendasi untuk administrator dan pengguna daya yang mengonfigurasi koneksi antara Azure Databricks dan sumber data dan layanan eksternal.

Anda dapat menyambungkan akun Azure Databricks Anda ke sumber data seperti penyimpanan objek cloud, sistem manajemen database relasional, layanan data streaming, dan platform perusahaan seperti CRD. Anda juga dapat menyambungkan akun Azure Databricks anda ke layanan eksternal non-penyimpanan.

Mengonfigurasi koneksi ke penyimpanan objek

Sebagian besar data yang digunakan oleh beban kerja Azure Databricks disimpan dalam penyimpanan objek cloud, seperti Azure Data Lake Storage atau AWS S3. Anda dapat mengelola akses ke penyimpanan objek cloud menggunakan salah satu hal berikut:

Mengonfigurasi koneksi ke sistem data eksternal

Databricks menawarkan beberapa opsi untuk mengonfigurasi koneksi ke sistem data eksternal. Tabel berikut ini menyediakan gambaran umum tingkat tinggi tentang opsi ini:

Opsi Deskripsi
Konektor federasi kueri Federasi Lakehouse menyediakan akses baca-saja ke data dalam sistem data perusahaan. Koneksi dikonfigurasi melalui Katalog Unity di tingkat katalog atau skema, menyinkronkan beberapa tabel dengan satu konfigurasi. Lihat Apa itu Federasi Lakehouse?.
Konektor penyerapan terkelola Lakeflow Connect memungkinkan pengguna admin membuat koneksi dan alur penyerapan terkelola secara bersamaan dalam UI penyerapan data. Lihat Penghubung Terkelola di Lakeflow Connect.
Jika pengguna yang akan membuat alur adalah pengguna non-admin atau berencana untuk menggunakan API Databricks, SDK Databricks, Databricks CLI, atau Bundel Aset Databricks, admin harus terlebih dahulu membuat koneksi di Catalog Explorer. Antarmuka ini mengharuskan pengguna menentukan koneksi yang ada saat membuat alur. Lihat Menyambungkan ke sumber penyerapan terkelola.
Konektor siaran langsung Azure Databricks menyediakan konektor yang dioptimalkan untuk banyak sistem data streaming.
Untuk semua sumber data streaming, Anda harus membuat kredensial yang menyediakan akses dan memuat kredensial ini ke Azure Databricks. Databricks merekomendasikan penyimpanan kredensial menggunakan rahasia, karena Anda dapat menggunakan rahasia untuk semua opsi konfigurasi dan di semua mode akses.
Semua konektor data untuk sumber streaming mendukung meneruskan kredensial menggunakan opsi saat Anda menentukan kueri streaming. Lihat Konektor standar di Lakeflow Connect.
Integrasi pihak ketiga Gunakan alat pihak ketiga untuk menyambungkan ke sumber data eksternal dan mengotomatiskan penyerapan data ke lakehouse. Beberapa solusi juga mencakup pembalikan ETL dan akses langsung ke data lakehouse dari sistem eksternal. Lihat Apa itu Databricks Partner Connect?.
Driver Azure Databricks menyertakan driver untuk sistem data eksternal di setiap Databricks Runtime. Anda dapat secara opsional menginstal driver pihak ketiga untuk mengakses data di sistem lain. Anda harus mengonfigurasi koneksi untuk setiap tabel. Beberapa driver termasuk akses tulis. Lihat Menyambungkan ke sistem eksternal.
Dalam federasi kueri baca-saja, Federasi Lakehouse selalu lebih disukai daripada driver ini.
JDBC Beberapa driver yang disertakan untuk sistem eksternal dibangun berdasarkan dukungan JDBC asli, dan opsi JDBC menyediakan opsi yang dapat diperluas untuk mengonfigurasi koneksi ke sistem lain. Anda harus mengonfigurasi koneksi untuk setiap tabel. Lihat Mengkueri basis data menggunakan JDBC.
Dalam federasi kueri baca-saja, Federasi Lakehouse selalu lebih disukai daripada driver ini.

Mengonfigurasi koneksi ke layanan eksternal

Katalog Unity mengatur akses ke layanan non-penyimpanan menggunakan objek yang dapat diamankan yang disebut kredensial layanan. Kredensial layanan menggambarkan kredensial cloud jangka panjang yang menyediakan akses ke layanan eksternal yang harus pengguna sambungkan dari Azure Databricks. Lihat Menyambungkan ke layanan cloud eksternal menggunakan Katalog Unity

Mengelola dan meminta akses ke sumber data dan layanan eksternal

Sebagian besar metode koneksi memerlukan hak istimewa yang ditinggikan pada sumber data eksternal atau layanan dan ruang kerja Azure Databricks. Dalam organisasi pada umumnya, sedikit pengguna memiliki cukup hak istimewa di Azure Databricks atau di penyedia data dan penyimpanan eksternal untuk mengonfigurasi koneksi data mereka sendiri.

Organisasi Anda mungkin telah mengonfigurasi akses ke sumber data atau layanan menggunakan salah satu pola yang dijelaskan dalam artikel yang ditautkan dari halaman ini. Jika organisasi Anda memiliki proses yang terdefinisi dengan baik untuk meminta akses ke data dan layanan pihak ketiga, Databricks merekomendasikan untuk mengikuti proses tersebut. Jika Anda tidak yakin cara mendapatkan akses ke sumber data, prosedur ini mungkin membantu:

  1. Gunakan Catalog Explorer untuk melihat tabel dan volume yang bisa Anda akses. Lihat Apa itu Catalog Explorer?.
  2. Tanyakan kepada rekan tim atau manajer Anda tentang sumber data yang dapat mereka akses.
    • Sebagian besar organisasi menggunakan grup yang disinkronkan dari penyedia identitas mereka (misalnya: OKTA atau ID Microsoft Entra) untuk mengelola izin bagi pengguna ruang kerja. Jika anggota tim Anda lain dapat mengakses sumber data yang perlu Anda akses, minta admin ruang kerja menambahkan Anda ke grup yang benar untuk memberikan akses.
    • Jika tabel, volume, atau sumber data tertentu dikonfigurasi oleh rekan kerja, individu tersebut harus dapat memberi Anda akses ke data.

Beberapa organisasi melampirkan izin akses data ke kluster komputasi dan gudang SQL tertentu. Ini adalah model tata kelola warisan, tetapi jika organisasi Anda menggunakannya dan Anda ingin mempelajari sumber data mana yang tersedia pada sumber daya komputasi tertentu, hubungi pembuat komputasi yang tercantum di tab Komputasi .