Menyambungkan ke Azure Databricks dari Python atau R

Dalam artikel ini, Anda mempelajari cara menggunakan driver Databricks ODBC untuk menyambungkan Azure Databricks dengan bahasa Python atau R. Setelah membuat koneksi, Anda dapat mengakses data di Azure Databricks dari klien Python atau R. Anda juga dapat menggunakan klien untuk menganalisis data lebih lanjut.

Prasyarat

Anda harus memiliki ruang kerja Azure Databricks, kluster Spark, dan data sampel yang terkait dengan kluster Anda.
Unduh driver Databricks ODBC dari halaman unduhan driver Databricks. Instal driver versi 64-bit.
Siapkan token akses pribadi di Databricks. Untuk petunjuknya, lihat Manajemen Token.

Menyiapkan DSN

Nama sumber data (DSN) berisi informasi tentang sumber data tertentu. Driver ODBC memerlukan DSN ini untuk menyambungkan ke sumber data. Di bagian ini, Anda menyiapkan DSN yang dapat digunakan dengan driver Databricks ODBC untuk terhubung ke Azure Databricks dari klien seperti Python atau R.

Dari ruang kerja Azure Databricks, navigasikan ke kluster Databricks.
Di bawah tab Konfigurasi, klik tab JDBC/ODBC dan salin nilai untuk Nama Host Server dan Jalur HTTP. Anda memerlukan nilai-nilai ini untuk menyelesaikan langkah-langkah dalam artikel ini.
Mulai aplikasi Sumber Data ODBC 64-bit di komputer Anda.
Di bawah tab User DSN, klik Tambahkan. Dalam kotak dialog Buat Sumber Data Baru, pilih driver Simba Spark ODBC, lalu klik Selesai.

Dalam kotak dialog Simba Spark ODBC Driver, masukkan nilai berikut:

Mengonfigurasi DSN

Tabel berikut ini menyediakan informasi tentang nilai yang akan disediakan dalam kotak dialog.

Bidang	Nilai
Nama Sumber Data	Berikan nama untuk sumber data.
Host	Berikan nilai yang Anda salin dari ruang kerja Databricks untuk host server .
Port	Masukkan 443.
Mekanisme>Autentikasi	Pilih Nama pengguna dan kata sandi.
Nama pengguna	Masukkan token .
Password	Masukkan nilai token yang Anda salin dari ruang kerja Databricks.

Lakukan langkah-langkah tambahan berikut dalam kotak dialog penyiapan DSN.

Klik Opsi HTTP. Dalam kotak dialog yang terbuka, tempelkan nilai untuk Jalur HTTP yang Anda salin dari ruang kerja Databricks. Klik OK.
Klik Pilihan SSL. Dalam kotak dialog yang terbuka, pilih kotak centang Aktifkan SSL. Klik OK.
Klik Uji untuk menguji koneksi ke Azure Databricks. Klik OK untuk menyimpan konfigurasi.
Dalam kotak dialog Administrator Sumber Data ODBC , klik OK.

Anda telah sekarang menyiapkan DSN Anda. Di bagian berikutnya, Anda menggunakan DSN ini untuk menyambungkan ke Azure Databricks dari Python atau R.

Hubungkan dari R

Nota

Bagian ini menyediakan informasi tentang cara mengintegrasikan klien R Studio yang berjalan di desktop Anda dengan Azure Databricks. Untuk petunjuk tentang cara menggunakan R Studio pada kluster Azure Databricks itu sendiri, lihat R Studio di Azure Databricks.

Di bagian ini, Anda menggunakan IDE bahasa R untuk mereferensikan data yang tersedia di Azure Databricks. Sebelum memulai, Anda harus menginstal berikut ini pada komputer.

IDE untuk bahasa R. Artikel ini menggunakan RStudio untuk Desktop. Anda dapat menginstalnya dari unduhan R Studio.
Jika Anda menggunakan RStudio untuk Desktop sebagai IDE Anda, instal juga Klien Microsoft R dari https://aka.ms/rclient/.

Buka RStudio dan lakukan langkah-langkah berikut:

Rujuk ke paket RODBC. Ini memungkinkan Anda menyambungkan ke Azure Databricks menggunakan DSN yang Anda buat sebelumnya.
Buat koneksi menggunakan DSN.
Jalankan kueri SQL pada data di Azure Databricks. Dalam cuplikan berikut, radio_sample_data adalah tabel yang sudah ada di Azure Databricks.
Lakukan beberapa operasi pada kueri untuk memverifikasi output.

Cuplikan kode berikut melakukan tugas-tugas ini:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Menghubungkan dari Python

Di bagian ini, Anda menggunakan Python IDE (seperti IDLE) untuk mereferensikan data yang tersedia di Azure Databricks. Sebelum memulai, selesaikan prasyarat berikut:

Instal Python dari di sini. Menginstal Python dari tautan ini juga menginstal IDLE.
Dari command prompt di komputer, instal paket pyodbc. Jalankan perintah berikut:
```
pip install pyodbc
```

Buka IDLE dan lakukan langkah-langkah berikut:

Mengimpor paket pyodbc. Ini memungkinkan Anda menyambungkan ke Azure Databricks menggunakan DSN yang Anda buat sebelumnya.
Buat koneksi menggunakan DSN yang Anda buat sebelumnya.
Jalankan kueri SQL menggunakan koneksi yang Anda buat. Dalam cuplikan berikut, radio_sample_data adalah tabel yang sudah ada di Azure Databricks.
Lakukan operasi pada kueri untuk memverifikasi output.

Cuplikan kode berikut melakukan tugas-tugas ini:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Langkah berikutnya

Untuk mempelajari sumber dari tempat Anda dapat mengimpor data ke Azure Databricks, lihat Sumber data untuk Azure Databricks.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-11-10