Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Dalam artikel ini, Anda mempelajari cara menggunakan driver Databricks ODBC untuk menyambungkan Azure Databricks dengan bahasa Python atau R. Setelah membuat koneksi, Anda dapat mengakses data di Azure Databricks dari klien Python atau R. Anda juga dapat menggunakan klien untuk menganalisis data lebih lanjut.
Prasyarat
Anda harus memiliki ruang kerja Azure Databricks, kluster Spark, dan data sampel yang terkait dengan kluster Anda.
Unduh driver Databricks ODBC dari halaman unduhan driver Databricks. Instal driver versi 64-bit.
Siapkan token akses pribadi di Databricks. Untuk petunjuknya, lihat Manajemen Token.
Menyiapkan DSN
Nama sumber data (DSN) berisi informasi tentang sumber data tertentu. Driver ODBC memerlukan DSN ini untuk menyambungkan ke sumber data. Di bagian ini, Anda menyiapkan DSN yang dapat digunakan dengan driver Databricks ODBC untuk terhubung ke Azure Databricks dari klien seperti Python atau R.
Dari ruang kerja Azure Databricks, navigasikan ke kluster Databricks.
Di bawah tab Konfigurasi, klik tab JDBC/ODBC dan salin nilai untuk Nama Host Server dan Jalur HTTP. Anda memerlukan nilai-nilai ini untuk menyelesaikan langkah-langkah dalam artikel ini.
Mulai aplikasi Sumber Data ODBC 64-bit di komputer Anda.
Di bawah tab User DSN, klik Tambahkan. Dalam kotak dialog Buat Sumber Data Baru, pilih driver Simba Spark ODBC, lalu klik Selesai.
Dalam kotak dialog Simba Spark ODBC Driver, masukkan nilai berikut:
Tabel berikut ini menyediakan informasi tentang nilai yang akan disediakan dalam kotak dialog.
Bidang Nilai Nama Sumber Data Berikan nama untuk sumber data. Host Berikan nilai yang Anda salin dari ruang kerja Databricks untuk host server . Port Masukkan 443. Mekanisme>Autentikasi Pilih Nama pengguna dan kata sandi. Nama pengguna Masukkan token . Password Masukkan nilai token yang Anda salin dari ruang kerja Databricks. Lakukan langkah-langkah tambahan berikut dalam kotak dialog penyiapan DSN.
- Klik Opsi HTTP. Dalam kotak dialog yang terbuka, tempelkan nilai untuk Jalur HTTP yang Anda salin dari ruang kerja Databricks. Klik OK.
- Klik Pilihan SSL. Dalam kotak dialog yang terbuka, pilih kotak centang Aktifkan SSL. Klik OK.
- Klik Uji untuk menguji koneksi ke Azure Databricks. Klik OK untuk menyimpan konfigurasi.
- Dalam kotak dialog Administrator Sumber Data ODBC , klik OK.
Anda telah sekarang menyiapkan DSN Anda. Di bagian berikutnya, Anda menggunakan DSN ini untuk menyambungkan ke Azure Databricks dari Python atau R.
Hubungkan dari R
Nota
Bagian ini menyediakan informasi tentang cara mengintegrasikan klien R Studio yang berjalan di desktop Anda dengan Azure Databricks. Untuk petunjuk tentang cara menggunakan R Studio pada kluster Azure Databricks itu sendiri, lihat R Studio di Azure Databricks.
Di bagian ini, Anda menggunakan IDE bahasa R untuk mereferensikan data yang tersedia di Azure Databricks. Sebelum memulai, Anda harus menginstal berikut ini pada komputer.
- IDE untuk bahasa R. Artikel ini menggunakan RStudio untuk Desktop. Anda dapat menginstalnya dari unduhan R Studio.
- Jika Anda menggunakan RStudio untuk Desktop sebagai IDE Anda, instal juga Klien Microsoft R dari https://aka.ms/rclient/.
Buka RStudio dan lakukan langkah-langkah berikut:
- Rujuk ke paket
RODBC. Ini memungkinkan Anda menyambungkan ke Azure Databricks menggunakan DSN yang Anda buat sebelumnya. - Buat koneksi menggunakan DSN.
- Jalankan kueri SQL pada data di Azure Databricks. Dalam cuplikan berikut, radio_sample_data adalah tabel yang sudah ada di Azure Databricks.
- Lakukan beberapa operasi pada kueri untuk memverifikasi output.
Cuplikan kode berikut melakukan tugas-tugas ini:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Menghubungkan dari Python
Di bagian ini, Anda menggunakan Python IDE (seperti IDLE) untuk mereferensikan data yang tersedia di Azure Databricks. Sebelum memulai, selesaikan prasyarat berikut:
Instal Python dari di sini. Menginstal Python dari tautan ini juga menginstal IDLE.
Dari command prompt di komputer, instal paket
pyodbc. Jalankan perintah berikut:pip install pyodbc
Buka IDLE dan lakukan langkah-langkah berikut:
- Mengimpor paket
pyodbc. Ini memungkinkan Anda menyambungkan ke Azure Databricks menggunakan DSN yang Anda buat sebelumnya. - Buat koneksi menggunakan DSN yang Anda buat sebelumnya.
- Jalankan kueri SQL menggunakan koneksi yang Anda buat. Dalam cuplikan berikut, radio_sample_data adalah tabel yang sudah ada di Azure Databricks.
- Lakukan operasi pada kueri untuk memverifikasi output.
Cuplikan kode berikut melakukan tugas-tugas ini:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Langkah berikutnya
- Untuk mempelajari sumber dari tempat Anda dapat mengimpor data ke Azure Databricks, lihat Sumber data untuk Azure Databricks.