Menyambungkan ke sumber data

Artikel ini memberikan rekomendasi berpendapat tentang bagaimana administrator dan pengguna daya lainnya dapat mengonfigurasi koneksi antara Azure Databricks dan sumber data. Jika Anda mencoba menentukan apakah Anda memiliki akses untuk membaca data dari sistem eksternal, mulailah dengan meninjau data yang dapat Anda akses di ruang kerja Anda. Lihat Menemukan data.

Anda dapat menyambungkan akun Azure Databricks Anda ke sumber data seperti penyimpanan objek cloud, sistem manajemen database relasional, layanan data streaming, dan platform perusahaan seperti CRD. Hak istimewa khusus yang diperlukan untuk mengonfigurasi koneksi tergantung pada sumber data, bagaimana izin di ruang kerja Azure Databricks Anda dikonfigurasi, izin yang diperlukan untuk berinteraksi dengan data di sumber, model tata kelola data Anda, dan metode pilihan Anda untuk menyambungkan.

Sebagian besar metode memerlukan hak istimewa yang ditinggikan pada sumber data dan ruang kerja Azure Databricks untuk mengonfigurasi izin yang diperlukan untuk mengintegrasikan sistem. Pengguna tanpa izin ini harus meminta bantuan. Lihat Meminta akses ke sumber data.

Mengonfigurasi koneksi penyimpanan objek

Penyimpanan objek cloud menyediakan dasar untuk menyimpan sebagian besar data di Azure Databricks. Untuk mempelajari selengkapnya tentang penyimpanan objek cloud dan tempat Azure Databricks menyimpan data, lihat Di mana Azure Databricks menulis data?.

Databricks merekomendasikan penggunaan Unity Catalog untuk mengonfigurasi akses ke penyimpanan objek cloud. Unity Catalog menyediakan tata kelola data untuk data terstruktur dan tidak terstruktur dalam penyimpanan objek cloud. Lihat Koneksi ke penyimpanan objek cloud menggunakan Unity Catalog.

Pelanggan yang tidak menggunakan Katalog Unity harus mengonfigurasi koneksi menggunakan metode warisan. Lihat Mengonfigurasi akses ke penyimpanan objek cloud untuk Azure Databricks.

Untuk mengonfigurasi jaringan ke penyimpanan objek cloud, lihat Jaringan.

Mengonfigurasi koneksi ke sistem data eksternal

Databricks merekomendasikan beberapa opsi untuk mengonfigurasi koneksi ke sistem data eksternal tergantung pada kebutuhan Anda. Tabel berikut ini menyediakan gambaran umum tingkat tinggi tentang opsi ini:

Opsi Deskripsi
Federasi Lakehouse Menyediakan akses baca-saja ke data dalam sistem data perusahaan. Koneksi dikonfigurasi melalui Unity Catalog di tingkat katalog atau skema, menyinkronkan beberapa tabel dengan satu konfigurasi. Lihat Apa itu Federasi Lakehouse.
Koneksi Mitra Memanfaatkan solusi mitra teknologi untuk terhubung ke sumber data eksternal dan mengotomatiskan penyerapan data ke lakehouse. Beberapa solusi juga termasuk ETL terbalik dan akses langsung ke data lakehouse dari sistem eksternal. Lihat Apa itu Koneksi Mitra Databricks?
Driver Azure Databricks menyertakan driver untuk sistem data eksternal di setiap Databricks Runtime. Anda dapat secara opsional menginstal driver pihak ketiga untuk mengakses data di sistem lain. Anda harus mengonfigurasi koneksi untuk setiap tabel. Beberapa driver termasuk akses tulis. Lihat Koneksi ke sistem eksternal.
JDBC Beberapa driver yang disertakan untuk sistem eksternal dibangun berdasarkan dukungan JDBC asli, dan opsi JDBC menyediakan opsi yang dapat diperluas untuk mengonfigurasi koneksi ke sistem lain. Anda harus mengonfigurasi koneksi untuk setiap tabel. Lihat Database kueri menggunakan JDBC.

Koneksi ke sumber data streaming

Azure Databricks menyediakan konektor yang dioptimalkan untuk banyak sistem data streaming.

Untuk semua sumber data streaming, Anda harus membuat kredensial yang menyediakan akses dan memuat kredensial ini ke Azure Databricks. Databricks merekomendasikan penyimpanan kredensial menggunakan rahasia, karena Anda dapat menggunakan rahasia untuk semua opsi konfigurasi dan di semua mode akses.

Semua konektor data untuk sumber streaming mendukung meneruskan kredensial menggunakan opsi saat Anda menentukan kueri streaming. Lihat Mengonfigurasi sumber data streaming.

Meminta akses ke sumber data

Di banyak organisasi, sebagian besar pengguna tidak memiliki hak istimewa yang memadai pada Azure Databricks atau sumber data eksternal untuk mengonfigurasi koneksi data.

Organisasi Anda mungkin telah mengonfigurasi akses ke sumber data menggunakan salah satu pola yang dijelaskan dalam artikel yang ditautkan dari halaman ini. Jika organisasi Anda memiliki proses yang terdefinisi dengan baik untuk meminta akses ke data, Databricks merekomendasikan untuk mengikuti proses tersebut.

Jika Anda tidak yakin cara mendapatkan akses ke sumber data, prosedur ini mungkin membantu Anda:

  1. Gunakan Catalog Explorer untuk melihat tabel dan volume yang bisa Anda akses. Lihat Apa itu Catalog Explorer?.
  2. Tanyakan kepada rekan tim atau manajer Anda tentang sumber data yang dapat mereka akses.
    • Sebagian besar organisasi menggunakan grup yang disinkronkan dari penyedia identitas mereka (misalnya: Okta atau ID Microsoft Entra (sebelumnya Azure Active Directory)) untuk mengelola izin bagi pengguna ruang kerja. Jika anggota tim Anda yang lain dapat mengakses sumber data yang perlu Anda akses, minta admin ruang kerja menambahkan Anda ke grup yang benar untuk memberi Anda akses.
    • Jika tabel, volume, atau sumber data tertentu dikonfigurasi oleh rekan kerja, individu tersebut harus memiliki izin untuk memberi Anda akses ke data.
  3. Beberapa organisasi mengonfigurasi izin akses data melalui pengaturan pada kluster komputasi dan gudang SQL.
    • Akses ke sumber data dapat bervariasi menurut komputasi.
    • Anda dapat melihat pembuat komputasi pada tab Komputasi . Hubungi pembuat untuk bertanya tentang sumber data yang harus dapat diakses.