Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel erfahren Sie, wie Sie den DATAbricks ODBC-Treiber verwenden, um Azure Databricks mit Python oder R-Sprache zu verbinden. Nachdem Sie die Verbindung hergestellt haben, können Sie über die Python- oder R-Clients auf die Daten in Azure Databricks zugreifen. Sie können auch die Clients verwenden, um die Daten weiter zu analysieren.
Voraussetzungen
Sie müssen über einen Azure Databricks-Arbeitsbereich, einen Spark-Cluster und Beispieldaten verfügen, die Ihrem Cluster zugeordnet sind.
Laden Sie den DATAbricks ODBC-Treiber von der Downloadseite des Databricks-Treibers herunter. Installieren Sie die 64-Bit-Version des Treibers.
Richten Sie ein persönliches Zugriffstoken in Databricks ein. Anweisungen finden Sie unter Tokenverwaltung.
Einrichten eines DSN
Ein Datenquellenname (Data Source Name, DSN) enthält die Informationen zu einer bestimmten Datenquelle. Ein ODBC-Treiber benötigt diesen DSN, um eine Verbindung mit einer Datenquelle herzustellen. In diesem Abschnitt richten Sie einen DSN ein, der mit dem Databricks ODBC-Treiber zum Herstellen einer Verbindung mit Azure Databricks von Clients wie Python oder R verwendet werden kann.
Navigieren Sie im Azure Databricks-Arbeitsbereich zum Databricks-Cluster.
Klicken Sie auf der Registerkarte Konfiguration auf die Registerkarte JDBC/ODBC, und kopieren Sie die Werte für Server Hostname und HTTP-Pfad. Sie benötigen diese Werte, um die Schritte in diesem Artikel auszuführen.
Starten Sie auf Ihrem Computer die ODBC-Datenquellenanwendung 64-Bit.
Klicken Sie auf der Registerkarte "Benutzer-DSN " auf "Hinzufügen". Wählen Sie im Dialogfeld "Neue Datenquelle erstellen " den ODBC-Treiber "Simba Spark" aus, und klicken Sie dann auf "Fertig stellen".
Geben Sie im Dialogfeld "Simba Spark ODBC-Treiber " die folgenden Werte an:
Die folgende Tabelle enthält Informationen zu den Werten, die im Dialogfeld bereitgestellt werden sollen.
Feld Wert Datenquellenname Geben Sie einen Namen für die Datenquelle an. Host(s) Geben Sie den Wert an, den Sie aus dem Databricks-Arbeitsbereich für den Serverhostname kopiert haben. Hafen Geben Sie 443ein. Authentifizierung>Mechanismus Wählen Sie "Benutzername und Kennwort" aus. Benutzername Token eingeben. Passwort Geben Sie den Tokenwert ein, den Sie aus dem Databricks-Arbeitsbereich kopiert haben. Führen Sie die folgenden zusätzlichen Schritte im Dialogfeld "DSN-Setup" aus.
- Klicken Sie auf HTTP-Optionen. Fügen Sie im daraufhin geöffneten Dialogfeld den Wert für den HTTP-Pfad ein, den Sie aus dem Databricks-Arbeitsbereich kopiert haben. Klicke auf OK.
- Klicken Sie auf SSL-Optionen. Aktivieren Sie im daraufhin geöffneten Dialogfeld das Kontrollkästchen SSL aktivieren . Klicke auf OK.
- Klicken Sie auf "Testen ", um die Verbindung mit Azure Databricks zu testen. Klicken Sie auf "OK ", um die Konfiguration zu speichern.
- Klicken Sie im Dialogfeld "ODBC-Datenquellenadministrator " auf "OK".
Sie haben jetzt Ihre DSN eingerichtet. In den nächsten Abschnitten verwenden Sie diesen DSN, um eine Verbindung mit Azure Databricks aus Python oder R herzustellen.
Verbindung mit R herstellen
Hinweis
Dieser Abschnitt enthält Informationen zum Integrieren eines R Studio-Clients, der auf Ihrem Desktop mit Azure Databricks ausgeführt wird. Anweisungen zur Verwendung von R Studio im Azure Databricks-Cluster selbst finden Sie unter R Studio auf Azure Databricks.
In diesem Abschnitt verwenden Sie eine R-Sprach-IDE, um auf daten zu verweisen, die in Azure Databricks verfügbar sind. Bevor Sie beginnen, müssen Sie folgendes auf dem Computer installiert haben.
- Eine IDE für R-Sprache. In diesem Artikel wird RStudio für Desktop verwendet. Sie können es aus dem R Studio-Download installieren.
- Wenn Sie RStudio für Desktop als IDE verwenden, installieren Sie auch Microsoft R Client von https://aka.ms/rclient/.
Öffnen Sie RStudio, und führen Sie die folgenden Schritte aus:
- Verweisen Sie auf das
RODBC-Paket. Auf diese Weise können Sie mithilfe des zuvor erstellten DSN eine Verbindung mit Azure Databricks herstellen. - Herstellen einer Verbindung mit dem DSN.
- Führen Sie eine SQL-Abfrage für die Daten in Azure Databricks aus. Im folgenden Codeausschnitt ist radio_sample_data eine Tabelle, die bereits in Azure Databricks vorhanden ist.
- Führen Sie einige Vorgänge für die Abfrage aus, um die Ausgabe zu überprüfen.
Der folgende Codeausschnitt führt diese Aufgaben aus:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Verbinden von Python
In diesem Abschnitt verwenden Sie eine Python-IDE (z. B. IDLE), um auf daten zu verweisen, die in Azure Databricks verfügbar sind. Bevor Sie beginnen, stellen Sie sicher, dass die folgenden Voraussetzungen erfüllt sind:
Installieren Sie Python von hier aus. Die Installation von Python über diesen Link installiert auch IDLE.
Installieren Sie das
pyodbcPaket über eine Eingabeaufforderung auf dem Computer. Führen Sie den folgenden Befehl aus:pip install pyodbc
Öffnen Sie IDLE, und führen Sie die folgenden Schritte aus:
- Importieren Sie das
pyodbc-Paket. Auf diese Weise können Sie mithilfe des zuvor erstellten DSN eine Verbindung mit Azure Databricks herstellen. - Richten Sie eine Verbindung mit dem zuvor erstellten DSN ein.
- Führen Sie eine SQL-Abfrage mit der von Ihnen erstellten Verbindung aus. Im folgenden Codeausschnitt ist radio_sample_data eine Tabelle, die bereits in Azure Databricks vorhanden ist.
- Führen Sie Vorgänge für die Abfrage aus, um die Ausgabe zu überprüfen.
Der folgende Codeausschnitt führt diese Aufgaben aus:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Nächste Schritte
- Informationen zu Quellen, aus denen Sie Daten in Azure Databricks importieren können, finden Sie unter Datenquellen für Azure Databricks.