Megosztás a következőn keresztül:


Csatlakozás az Azure Databrickshez Pythonból vagy R-ből (Simba)

Ezen a lapon megtudhatja, hogyan csatlakoztathatja az Azure Databrickset a Databricks ODBC-illesztővel Python- vagy R-nyelvhez. A kapcsolat létrehozása után az Azure Databricksben lévő adatokat a Python- vagy R-ügyfelekről érheti el. Az ügyfeleket az adatok további elemzéséhez is használhatja.

Előfeltételek

  • Rendelkeznie kell egy Azure Databricks munkaterülettel, egy Spark fürttel és a fürthöz kapcsolódó mintaadatokkal.

  • Töltse le a Databricks ODBC-illesztőprogramot Databricks-illesztőprogram letöltési oldaláról. Telepítse az illesztőprogram 64 bites verzióját.

  • Személyes hozzáférési jogkivonat beállítása a Databricksben. Útmutatásért lásd token kezelés.

DSN beállítása

Az adatforrás neve (DSN) egy adott adatforrás adatait tartalmazza. Egy ODBC-illesztőnek szüksége van erre a DSN-re egy adatforráshoz való csatlakozáshoz. Ebben a szakaszban beállít egy DSN-t, amely a Databricks ODBC-illesztőprogrammal használható az Azure Databrickshez való csatlakozáshoz olyan ügyfelektől, mint a Python vagy az R.

  1. Az Azure Databricks-munkaterületen navigáljon a Databricks-fürtre.

    Nyissa meg a Databricks-fürtöt

  2. A Konfigurációs lapon kattintson a JDBC/ODBC fülre, és másolja a Kiszolgáló állomásneve és HTTP-elérési útértékeit. A lap lépéseinek elvégzéséhez ezekre az értékekre van szüksége.

    Databricks-konfiguráció lekérése

  3. Indítsa el a számítógépen a ODBC Data Sources alkalmazást 64 bites.

    ODBC Adatforrások alkalmazás indítása

  4. A Felhasználói DSN lapon kattintson a Hozzáadás gombra. Az Új adatforrás létrehozása párbeszédpanelen válassza ki a Simba Spark ODBC-illesztő , majd kattintson a Befejezésgombra.

    ODBC-adatforrás hozzáadása

  5. A Simba Spark ODBC-illesztő párbeszédpanelen adja meg a következő értékeket:

    DSN konfigurálásaDSN konfigurálása

    Az alábbi táblázat a párbeszédpanelen megadható értékekkel kapcsolatos információkat tartalmazza.

    Terület Érték
    Adatforrás neve Adja meg az adatforrás nevét.
    Hoszt(ok) Adja meg a kiszolgáló gazdagépneve számára azt az értéket, amelyet a Databricks-munkaterületről másolt.
    Port Adja meg 443.
    hitelesítési>mechanizmus Válassza Felhasználónév és jelszólehetőséget.
    felhasználónév Írja be a kódot.
    Jelszó Adja meg a Databricks-munkaterületről másolt tokenértéket.

    Hajtsa végre az alábbi további lépéseket a DSN beállítási párbeszédpaneljén.

    • Kattintson HTTP-beállítások. A megnyíló párbeszédpanelen illessze be a Databricks-munkaterületről másolt HTTP-elérési út értékét. Kattintson az OK gombra.
    • Kattintson SSL-beállításokelemre. A megnyíló párbeszédpanelen jelölje be az SSL- engedélyezése jelölőnégyzetet. Kattintson az OK gombra.
    • Kattintson a Test gombra az Azure Databricks-kapcsolat teszteléséhez. A konfiguráció mentéséhez kattintson OK gombra.
    • Az ODBC-adatforrás rendszergazdája párbeszédpanelen kattintson OKgombra.

A DSN most már be van állítva. A következő szakaszokban ezzel a DSN-vel csatlakozhat az Azure Databrickshez Pythonból vagy R-ből.

Csatlakozás R-ről

Megjegyzés

Ez a szakasz az asztalon futó R Studio-ügyfél Azure Databricksbe való integrálásáról nyújt tájékoztatást. Az R Studio használatára az Azure Databricks-fürtön vonatkozó útmutatásokhoz lásd a R Studio az Azure Databricksrészt.

Ebben a szakaszban egy R nyelvi IDE használatával hivatkozhat az Azure Databricksben elérhető adatokra. Mielőtt hozzákezdene, telepítenie kell a következőt a számítógépre.

Nyissa meg az RStudio-t, és hajtsa végre a következő lépéseket:

  1. Hivatkozzon a RODBC csomagra. Ez lehetővé teszi, hogy a korábban létrehozott DSN használatával csatlakozzon az Azure Databrickshez.
  2. Hozzon létre egy kapcsolatot a DSN használatával.
  3. SQL-lekérdezés futtatása az Azure Databricksben lévő adatokon. Az alábbi kódrészletben radio_sample_data egy olyan tábla, amely már létezik az Azure Databricksben.
  4. Végezzen el néhány műveletet a lekérdezésen a kimenet ellenőrzéséhez.

A következő kódrészlet a következő feladatokat hajtja végre:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Csatlakozás Pythonból

Ebben a szakaszban egy Python IDE(például IDLE) használatával hivatkozhat az Azure Databricksben elérhető adatokra. Mielőtt hozzákezdene, végezze el a következő előfeltételeket:

  • Telepítse a Pythont innen. A Python ezen a hivatkozáson való telepítése az IDLE-t is telepíti.

  • A számítógépen található parancssorból telepítse a pyodbc csomagot. Futtassa a következő parancsot:

    pip install pyodbc
    

Indítsa el az IDLE-t, és hajtsa végre a következő lépéseket:

  1. Importálja a pyodbc csomagot. Ez lehetővé teszi, hogy a korábban létrehozott DSN használatával csatlakozzon az Azure Databrickshez.
  2. Hozzon létre egy kapcsolatot a korábban létrehozott DSN használatával.
  3. Futtasson egy SQL-lekérdezést a létrehozott kapcsolattal. Az alábbi kódrészletben radio_sample_data egy olyan tábla, amely már létezik az Azure Databricksben.
  4. Hajtsa végre a műveleteket a lekérdezésen a kimenet ellenőrzéséhez.

A következő kódrészlet a következő feladatokat hajtja végre:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Következő lépések

  • Ha többet szeretne megtudni azokról a forrásokról, ahonnan adatokat importálhat az Azure Databricksbe, tekintse meg Azure Databricks-adatforrásait.