Sdílet prostřednictvím


Připojení k Azure Databricks z Pythonu nebo R (Simba)

Na této stránce se dozvíte, jak pomocí ovladače ODBC Databricks připojit Azure Databricks s jazykem Python nebo R. Po navázání připojení můžete přistupovat k datům v Azure Databricks z klientů Pythonu nebo R. Klienty můžete také použít k další analýze dat.

Požadavky

  • Musíte mít pracovní prostor Azure Databricks, cluster Spark a ukázková data přidružená k vašemu clusteru.

  • Stáhněte ovladač ODBC Databricks z stránky pro stažení ovladače Databricks. Nainstalujte 64bitovou verzi ovladače.

  • Nastavte osobní přístupový token v Databricks. Pokyny najdete v tématu správa tokenů.

Nastavení DSN

Název zdroje dat (DSN) obsahuje informace o konkrétním zdroji dat. Ovladač ODBC potřebuje tento dsN pro připojení ke zdroji dat. V této části nastavíte dsN, který se dá použít s ovladačem ODBC Databricks pro připojení k Azure Databricks z klientů, jako je Python nebo R.

  1. V pracovním prostoru Azure Databricks přejděte do clusteru Databricks.

    otevřít cluster Databricks

  2. Na kartě Konfigurace klikněte na kartu JDBC/ODBC a zkopírujte hodnoty pro Název hostitele serveru a cestu HTTP. Tyto hodnoty potřebujete k dokončení kroků na této stránce.

    Získejte konfiguraci Databricks

  3. Na počítači spusťte aplikaci ODBC Data Sources ve verzi 64 bitů.

    Spuštění aplikace zdroje dat ODBC

  4. Na kartě DSN uživatele klikněte na Přidat. V dialogovém okně Vytvořit nový zdroj dat vyberte Ovladač Simba Spark ODBCa klikněte na Dokončit.

    Přidání zdroje dat ODBC

  5. V dialogovém okně Simba Spark ODBC ovladači zadejte následující hodnoty:

    konfigurovat DSN

    Následující tabulka obsahuje informace o hodnotách, které chcete zadat v dialogovém okně.

    (No improvements necessary, the translation is already optimal.) Hodnota
    název zdroje dat Zadejte název zdroje dat.
    hostitel(é) Zadejte hodnotu, kterou jste zkopírovali z pracovního prostoru Databricks pro název hostitele serveru .
    Port Zadejte 443.
    mechanismu ověřování> Vyberte uživatelské jméno a heslo.
    Uživatelské jméno Zadejte token .
    Heslo Zadejte hodnotu tokenu, kterou jste zkopírovali z pracovního prostoru Databricks.

    V dialogovém okně nastavení DSN proveďte následující další kroky.

    • Klepněte na tlačítko možnosti HTTP. V dialogovém okně, které se otevře, vložte hodnotu pro cestu HTTP, kterou jste zkopírovali z pracovního prostoru Databricks. Klikněte na OK.
    • Klepněte na tlačítko možnosti protokolu SSL. V dialogovém okně, které se otevře, zaškrtněte políčko Povolit ssl. Klikněte na OK.
    • Kliknutím na Test otestujte připojení k Azure Databricks. Kliknutím na OK konfiguraci uložte.
    • V dialogovém okně správce zdroje dat ODBC klepněte na tlačítko OK.

Teď máte nastavený dsN. V následujících částech použijete tento DSN k připojení k Azure Databricks v jazyce Python nebo R.

Připojení z R

Poznámka:

Tato část obsahuje informace o tom, jak integrovat klienta R Studia běžícího na počítači s Azure Databricks. Pokyny k použití R Studia v samotném clusteru Azure Databricks najdete v tématu R Studio v Azure Databricks.

V této části použijete integrované vývojové prostředí jazyka R k odkazování na data dostupná v Azure Databricks. Než začnete, musíte mít v počítači nainstalované následující součásti.

  • Integrované vývojové prostředí (IDE) pro jazyk R Tato stránka používá RStudio pro Desktop. Můžete ho nainstalovat z R Studio ke stažení.
  • Pokud jako integrované vývojové prostředí (IDE) používáte RStudio pro Desktop, nainstalujte také klienta Microsoft R z https://aka.ms/rclient/.

Otevřete RStudio a proveďte následující kroky:

  1. Vytvořte odkaz na balíček RODBC. Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
  2. Vytvořte připojení pomocí dsN.
  3. Spusťte dotaz SQL na data v Azure Databricks. V následujícím fragmentu kódu radio_sample_data je tabulka, která už v Azure Databricks existuje.
  4. Provedením některých operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Připojení z Pythonu

V této části použijete integrované vývojové prostředí Pythonu (například IDLE) k odkazování na data dostupná v Azure Databricks. Než začnete, splňte následující předpoklady:

  • Nainstalujte Python z sem. Instalace Pythonu z tohoto odkazu také nainstaluje IDLE.

  • Z příkazového řádku v počítači nainstalujte balíček pyodbc. Spusťte následující příkaz:

    pip install pyodbc
    

Spusťte IDLE a proveďte následující kroky:

  1. Importujte balíček pyodbc. Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
  2. Vytvořte připojení pomocí DSN, který jste vytvořili dříve.
  3. Spusťte dotaz SQL pomocí připojení, které jste vytvořili. V následujícím fragmentu kódu radio_sample_data je tabulka, která už v Azure Databricks existuje.
  4. Provedením operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Další kroky