Herstellen einer Verbindung mit Azure Databricks über Python oder R

Auf dieser Seite erfahren Sie, wie Sie den DATAbricks ODBC-Treiber verwenden, um Azure Databricks mit Python oder R-Sprache zu verbinden. Nachdem Sie die Verbindung hergestellt haben, können Sie über die Python- oder R-Clients auf die Daten in Azure Databricks zugreifen. Sie können auch die Clients verwenden, um die Daten weiter zu analysieren.

Voraussetzungen

Sie müssen über einen Azure Databricks-Arbeitsbereich, einen Spark-Cluster und Beispieldaten verfügen, die Ihrem Cluster zugeordnet sind.
Laden Sie den DATAbricks ODBC-Treiber von der Downloadseite des Databricks-Treibers herunter. Installieren Sie die 64-Bit-Version des Treibers.
Richten Sie ein persönliches Zugriffstoken in Databricks ein. Anweisungen finden Sie unter Tokenverwaltung.

Einrichten eines DSN

Ein Datenquellenname (Data Source Name, DSN) enthält die Informationen zu einer bestimmten Datenquelle. Ein ODBC-Treiber benötigt diesen DSN, um eine Verbindung mit einer Datenquelle herzustellen. In diesem Abschnitt richten Sie einen DSN ein, der mit dem Databricks ODBC-Treiber zum Herstellen einer Verbindung mit Azure Databricks von Clients wie Python oder R verwendet werden kann.

Navigieren Sie im Azure Databricks-Arbeitsbereich zum Databricks-Cluster.
Klicken Sie auf der Registerkarte Konfiguration auf die Registerkarte JDBC/ODBC, und kopieren Sie die Werte für Server Hostname und HTTP-Pfad. Sie benötigen diese Werte, um die Schritte auf dieser Seite auszuführen.
Starten Sie auf Ihrem Computer die ODBC-Datenquellenanwendung 64-Bit.
Klicken Sie auf der Registerkarte "Benutzer-DSN " auf "Hinzufügen". Wählen Sie im Dialogfeld "Neue Datenquelle erstellen " den ODBC-Treiber "Databricks" aus, und klicken Sie dann auf "Fertig stellen".

Geben Sie im Dialogfeld "ODBC-Treiberkonfiguration" die folgenden Werte an:

DSN konfigurieren DSN konfigurieren

Die folgende Tabelle enthält Informationen zu den Werten, die im Dialogfeld bereitgestellt werden sollen.

Feld	Wert
Datenquellenname	Geben Sie einen Namen für die Datenquelle an.
Host(s)	Geben Sie den Wert an, den Sie aus dem Databricks-Arbeitsbereich für den Serverhostname kopiert haben.
Hafen	Geben Sie 443ein.
Authentifizierung>Mechanismus	Wählen Sie "Benutzername und Kennwort" aus.
Benutzername	Token eingeben.
Passwort	Geben Sie den Tokenwert ein, den Sie aus dem Databricks-Arbeitsbereich kopiert haben.

Führen Sie die folgenden zusätzlichen Schritte im Dialogfeld "DSN-Setup" aus.

Klicken Sie auf HTTP-Optionen. Fügen Sie im daraufhin geöffneten Dialogfeld den Wert für den HTTP-Pfad ein, den Sie aus dem Databricks-Arbeitsbereich kopiert haben. Klicke auf OK.
Klicken Sie auf SSL-Optionen. Aktivieren Sie im daraufhin geöffneten Dialogfeld das Kontrollkästchen SSL aktivieren . Klicke auf OK.
Klicken Sie auf "Testen ", um die Verbindung mit Azure Databricks zu testen. Klicken Sie auf "OK ", um die Konfiguration zu speichern.
Klicken Sie im Dialogfeld "ODBC-Datenquellenadministrator " auf "OK".

Sie haben jetzt Ihre DSN eingerichtet. In den nächsten Abschnitten verwenden Sie diesen DSN, um eine Verbindung mit Azure Databricks aus Python oder R herzustellen.

Verbindung mit R herstellen

Hinweis

Dieser Abschnitt enthält Informationen zum Integrieren eines R Studio-Clients, der auf Ihrem Desktop mit Azure Databricks ausgeführt wird. Anweisungen zur Verwendung von R Studio im Azure Databricks-Cluster selbst finden Sie unter R Studio Server auf Azure Databricks.

In diesem Abschnitt verwenden Sie eine R-Sprach-IDE, um auf daten zu verweisen, die in Azure Databricks verfügbar sind. Bevor Sie beginnen, müssen Sie folgendes auf dem Computer installiert haben.

Eine IDE für R-Sprache. Diese Seite verwendet RStudio für Desktop. Sie können es aus dem R Studio-Download installieren.
Wenn Sie RStudio für Desktop als IDE verwenden, installieren Sie auch Microsoft R Client von https://aka.ms/rclient/.

Öffnen Sie RStudio, und führen Sie die folgenden Schritte aus:

Verweisen Sie auf das RODBC-Paket. Auf diese Weise können Sie mithilfe des zuvor erstellten DSN eine Verbindung mit Azure Databricks herstellen.
Herstellen einer Verbindung mit dem DSN.
Führen Sie eine SQL-Abfrage für die Daten in Azure Databricks aus. Im folgenden Codeausschnitt ist radio_sample_data eine Tabelle, die bereits in Azure Databricks vorhanden ist.
Führen Sie einige Vorgänge für die Abfrage aus, um die Ausgabe zu überprüfen.

Der folgende Codeausschnitt führt diese Aufgaben aus:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Verbinden von Python

In diesem Abschnitt verwenden Sie eine Python-IDE (z. B. IDLE), um auf daten zu verweisen, die in Azure Databricks verfügbar sind. Bevor Sie beginnen, stellen Sie sicher, dass die folgenden Voraussetzungen erfüllt sind:

Installieren Sie Python von hier aus. Die Installation von Python über diesen Link installiert auch IDLE.
Installieren Sie das pyodbc Paket über eine Eingabeaufforderung auf dem Computer. Führen Sie den folgenden Befehl aus:
```
pip install pyodbc
```

Öffnen Sie IDLE, und führen Sie die folgenden Schritte aus:

Importieren Sie das pyodbc-Paket. Auf diese Weise können Sie mithilfe des zuvor erstellten DSN eine Verbindung mit Azure Databricks herstellen.
Richten Sie eine Verbindung mit dem zuvor erstellten DSN ein.
Führen Sie eine SQL-Abfrage mit der von Ihnen erstellten Verbindung aus. Im folgenden Codeausschnitt ist radio_sample_data eine Tabelle, die bereits in Azure Databricks vorhanden ist.
Führen Sie Vorgänge für die Abfrage aus, um die Ausgabe zu überprüfen.

Der folgende Codeausschnitt führt diese Aufgaben aus:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Nächste Schritte

Informationen zu Quellen, aus denen Sie Daten in Azure Databricks importieren können, finden Sie unter Datenquellen für Azure Databricks.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-02