Aracılığıyla paylaş


Python veya R'den Azure Databricks'e Bağlan

Bu makalede, Azure Databricks'i Python veya R diliyle bağlamak için Databricks ODBC sürücüsünü kullanmayı öğreneceksiniz. Bağlantıyı kurduktan sonra Python veya R istemcilerinden Azure Databricks'teki verilere erişebilirsiniz. Verileri daha fazla analiz etmek için istemcileri de kullanabilirsiniz.

Önkoşullar

  • Kümenizle ilişkilendirilmiş bir Azure Databricks çalışma alanınız, spark kümeniz ve örnek verileriniz olmalıdır. Bu önkoşullara henüz sahip değilseniz Başlarken'deki hızlı başlangıcı tamamlayın.

  • Databricks sürücüsü indirme sayfasından Databricks ODBC sürücüsünü indirin. Sürücünün 64 bit sürümünü yükleyin.

  • Databricks'te kişisel erişim belirteci ayarlama. Yönergeler için bkz . Belirteç yönetimi.

DSN ayarlama

Veri kaynağı adı (DSN), belirli bir veri kaynağı hakkındaki bilgileri içerir. Bir ODBC sürücüsünün bir veri kaynağına bağlanması için bu DSN'ye ihtiyacı vardır. Bu bölümde, Python veya R gibi istemcilerden Azure Databricks'e bağlanmak için Databricks ODBC sürücüsüyle kullanılabilecek bir DSN ayarlarsınız.

  1. Azure Databricks çalışma alanından Databricks kümesine gidin.

    Open Databricks cluster

  2. Yapılandırma sekmesinin altında JDBC/ODBC sekmesine tıklayın ve Sunucu Ana Bilgisayar Adı ve HTTP Yolu değerlerini kopyalayın. Bu makaledeki adımları tamamlamak için bu değerlere ihtiyacınız vardır.

    Get Databricks configuration

  3. Bilgisayarınızda ODBC Veri Kaynakları uygulamasını 64 bit başlatın.

    Launch ODBC Data Sources app

  4. Kullanıcı DSN sekmesinin altında Ekle'ye tıklayın. Yeni Veri Kaynağı Oluştur iletişim kutusunda Simba Spark ODBC Sürücüsü'ne tıklayın ve son'a tıklayın.

    Add ODBC data source

  5. Simba Spark ODBC Sürücüsü iletişim kutusunda aşağıdaki değerleri sağlayın:

    Configure DSN

    Aşağıdaki tablo, iletişim kutusunda sağlayabilecek değerler hakkında bilgi sağlar.

    Alan Değer
    Veri Kaynağı Adı Veri kaynağı için bir ad belirtin.
    Konaklar Sunucu ana bilgisayar adı için Databricks çalışma alanından kopyaladığınız değeri belirtin.
    Bağlantı noktası 443 girin.
    Kimlik Doğrulama>Mekanizması Kullanıcı adı ve parola'ya tıklayın.
    Kullanıcı adı Belirteci girin.
    Parola Databricks çalışma alanından kopyaladığınız belirteç değerini girin.

    DSN kurulumu iletişim kutusunda aşağıdaki ek adımları gerçekleştirin.

    • HTTP Seçenekleri'ne tıklayın. Açılan iletişim kutusunda, Databricks çalışma alanından kopyaladığınız HTTP Yolu değerini yapıştırın. Tamam'ı tıklatın.
    • SSL Seçenekleri'ne tıklayın. Açılan iletişim kutusunda SSL'yi Etkinleştir onay kutusunu seçin. Tamam'ı tıklatın.
    • Azure Databricks bağlantısını test etmek için Test'e tıklayın. Yapılandırmayı kaydetmek için Tamam 'ı tıklatın.
    • ODBC Veri Kaynağı Yönetici istrator iletişim kutusunda Tamam'a tıklayın.

Artık DSN'nizi ayarladınız. Sonraki bölümlerde, Python veya R'den Azure Databricks'e bağlanmak için bu DSN'yi kullanacaksınız.

R'den Bağlan

Dekont

Bu bölümde, masaüstünüzde çalışan bir R Studio istemcisini Azure Databricks ile tümleştirme hakkında bilgi sağlanır. Azure Databricks kümesinde R Studio'yu kullanma yönergeleri için bkz . Azure Databricks üzerinde R Studio.

Bu bölümde, Azure Databricks'te bulunan verilere başvurmak için R dili IDE'sini kullanacaksınız. Başlamadan önce, bilgisayarda aşağıdakilerin yüklü olması gerekir.

  • R dili için IDE. Bu makalede Masaüstü için RStudio kullanılmaktadır. R Studio indirmesinden yükleyebilirsiniz.
  • IDE'niz olarak Masaüstü için RStudio kullanıyorsanız, Microsoft R İstemcisi'ni de 'den https://aka.ms/rclient/yükleyin.

RStudio'yu açın ve aşağıdaki adımları uygulayın:

  • RODBC paketine başvurun. Bu, daha önce oluşturduğunuz DSN'yi kullanarak Azure Databricks'e bağlanmanızı sağlar.
  • DSN kullanarak bağlantı kurun.
  • Azure Databricks'teki veriler üzerinde bir SQL sorgusu çalıştırın. Aşağıdaki kod parçacığında radio_sample_data, Azure Databricks'te zaten var olan bir tablodur.
  • Çıkışı doğrulamak için sorguda bazı işlemler gerçekleştirin.

Aşağıdaki kod parçacığı şu görevleri gerçekleştirir:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Python'dan Bağlan

Bu bölümde, Azure Databricks'te bulunan verilere başvurmak için Python IDE (IDLE gibi) kullanacaksınız. Başlamadan önce aşağıdaki önkoşulları tamamlayın:

  • Python'ı buradan yükleyin. Bu bağlantıdan Python'ı yüklemek IDLE'ı da yükler.

  • Bilgisayardaki bir komut isteminden paketi yükleyin pyodbc . Şu komutu çalıştırın:

    pip install pyodbc
    

IDLE'ı açın ve aşağıdaki adımları uygulayın:

  • Paketi içeri aktarın pyodbc . Bu, daha önce oluşturduğunuz DSN'yi kullanarak Azure Databricks'e bağlanmanızı sağlar.
  • Daha önce oluşturduğunuz DSN'yi kullanarak bağlantı kurun.
  • Oluşturduğunuz bağlantıyı kullanarak bir SQL sorgusu çalıştırın. Aşağıdaki kod parçacığında radio_sample_data, Azure Databricks'te zaten var olan bir tablodur.
  • Çıktıyı doğrulamak için sorguda işlemler gerçekleştirin.

Aşağıdaki kod parçacığı şu görevleri gerçekleştirir:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Sonraki adımlar