Aracılığıyla paylaş


Python veya R'den Azure Databricks'e bağlanma

Bu makalede, Azure Databricks'i Python veya R diliyle bağlamak için Databricks ODBC sürücüsünü kullanmayı öğreneceksiniz. Bağlantıyı kurduktan sonra Python veya R istemcilerinden Azure Databricks'teki verilere erişebilirsiniz. Verileri daha fazla analiz etmek için istemcileri de kullanabilirsiniz.

Önkoşullar

  • Kümenizle ilişkilendirilmiş bir Azure Databricks çalışma alanınız, spark kümeniz ve örnek verileriniz olmalıdır.

  • Databricks ODBC sürücüsünü Databricks sürücü indirme sayfasındanindirin. Sürücünün 64 bit sürümünü yükleyin.

  • Databricks'te kişisel erişim belirteci ayarlama. Yönergeler için bkz. Belirteç yönetimi.

DSN ayarlama

Veri kaynağı adı (DSN), belirli bir veri kaynağı hakkındaki bilgileri içerir. Bir ODBC sürücüsünün bir veri kaynağına bağlanması için bu DSN'ye ihtiyacı vardır. Bu bölümde, Python veya R gibi istemcilerden Azure Databricks'e bağlanmak için Databricks ODBC sürücüsüyle kullanılabilecek bir DSN ayarlarsınız.

  1. Azure Databricks çalışma alanından Databricks kümesine gidin.

    Databricks kümesini aç Databricks kümesini aç

  2. Yapılandırma sekmesinin altında JDBC/ODBC sekmesine tıklayın ve Sunucu Ana Bilgisayar Adı değerlerini kopyalayın ve HTTP Yolu. Bu makaledeki adımları tamamlamak için bu değerlere ihtiyacınız vardır.

    Databricks yapılandırmasını al

  3. Bilgisayarınızda 64 bit ODBC Veri Kaynakları uygulamasını başlatın.

    ODBC Veri Kaynakları uygulamasını başlatmaODBC uygulamasını başlatma

  4. Kullanıcı DSN sekmesinin altında Ekleüzerinde tıklayın. Yeni Veri Kaynağı Oluştur iletişim kutusunda , Simba Spark ODBC Sürücüsü seçin ve Bitiröğesine tıklayın.

    ODBC veri kaynağı ekleme

  5. Simba Spark ODBC Sürücüsü iletişim kutusunda aşağıdaki değerleri sağlayın:

    DSN'i Yapılandır

    Aşağıdaki tablo, iletişim kutusunda sağlayabilecek değerler hakkında bilgi sağlar.

    Field Değer
    Veri Kaynağı Adı Veri kaynağı için bir ad belirtin.
    Sunucu(lar) Server ana bilgisayar adıiçin Databricks çalışma alanından kopyaladığınız değeri belirtin.
    Liman 443girin.
    Kimlik Doğrulama>Mekanizması kullanıcı adı ve parolaseçin.
    Kullanıcı adı belirtecigirin.
    Parola Databricks çalışma alanından kopyaladığınız belirteç değerini girin.

    DSN kurulumu iletişim kutusunda aşağıdaki ek adımları gerçekleştirin.

    • HTTP seçeneklerinetıklayın. Açılan iletişim kutusunda, Databricks çalışma alanından kopyaladığınız HTTP Yolu değerini yapıştırın. Tamam'a tıklayın.
    • SSL Seçenekleritıklayın. Açılan iletişim kutusunda SSL etkinleştir onay kutusunu seçin. Tamam'a tıklayın.
    • Azure Databricks bağlantısını test etmek için Test tıklayın. Yapılandırmayı kaydetmek için Tamam'e tıklayın.
    • ODBC Veri Kaynağı Yöneticisi iletişim kutusunda Tamam'atıklayın.

Artık DSN'nizi ayarladınız. Sonraki bölümlerde, Python veya R'den Azure Databricks'e bağlanmak için bu DSN'yi kullanacaksınız.

R'den bağlan

Uyarı

Bu bölümde, masaüstünüzde çalışan bir R Studio istemcisini Azure Databricks ile tümleştirme hakkında bilgi sağlanır. Azure Databricks kümesinde R Studio'yu kullanma yönergeleri için bkz. R Studio Azure Databricks.

Bu bölümde, Azure Databricks'te bulunan verilere başvurmak için R dili IDE'sini kullanacaksınız. Başlamadan önce, bilgisayarda aşağıdakilerin yüklü olması gerekir.

  • R dili için IDE. Bu makalede Masaüstü için RStudio kullanılmaktadır. R Studio indirme'den yükleyebilirsiniz.
  • IDE'niz olarak Masaüstü için RStudio kullanıyorsanız, https://aka.ms/rclient/'den Microsoft R İstemcisi'ni de yükleyin.

RStudio'yu açın ve aşağıdaki adımları uygulayın:

  1. RODBC paketine başvurun. Bu, daha önce oluşturduğunuz DSN'yi kullanarak Azure Databricks'e bağlanmanızı sağlar.
  2. DSN kullanarak bağlantı kurun.
  3. Azure Databricks'teki veriler üzerinde bir SQL sorgusu çalıştırın. Aşağıdaki kod parçacığında radio_sample_data, Azure Databricks'te zaten var olan bir tablodur.
  4. Çıkışı doğrulamak için sorguda bazı işlemler gerçekleştirin.

Aşağıdaki kod parçacığı şu görevleri gerçekleştirir:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Python'dan bağlanma

Bu bölümde, Azure Databricks'te bulunan verilere başvurmak için Python IDE (IDLE gibi) kullanacaksınız. Başlamadan önce aşağıdaki önkoşulları tamamlayın:

  • python'ı buradanyükleyin. Bu bağlantıdan Python'ı yüklemek IDLE'ı da yükler.

  • Bilgisayardaki bir komut isteminden pyodbc paketini yükleyin. Aşağıdaki komutu çalıştırın:

    pip install pyodbc
    

IDLE'ı açın ve aşağıdaki adımları uygulayın:

  1. pyodbc paketini içeri aktarın. Bu, daha önce oluşturduğunuz DSN'yi kullanarak Azure Databricks'e bağlanmanızı sağlar.
  2. Daha önce oluşturduğunuz DSN'yi kullanarak bağlantı kurun.
  3. Oluşturduğunuz bağlantıyı kullanarak bir SQL sorgusu çalıştırın. Aşağıdaki kod parçacığında radio_sample_data, Azure Databricks'te zaten var olan bir tablodur.
  4. Çıktıyı doğrulamak için sorguda işlemler gerçekleştirin.

Aşağıdaki kod parçacığı şu görevleri gerçekleştirir:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Sonraki adımlar

  • Azure Databricks'e veri aktarabileceğiniz kaynaklar hakkında bilgi edinmek için bkz . Azure Databricks için veri kaynakları.