Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Tento článek popisuje sparklyr integraci s Databricks Connect pro Databricks Runtime 13.0 a vyšší. Tuto integraci neposkytuje Databricks ani přímo nepodporuje Databricks.
Pokud máte otázky, přejděte do komunity Posit.
Pokud chcete nahlásit problémy, přejděte do části Issues úložiště sparklyr v GitHub.
Další informace najdete v tématu Databricks Connect v2 v sparklyr dokumentaci.
Databricks Connect umožňuje připojit oblíbená integrovaná vývojová prostředí, jako jsou RStudio Desktop, servery poznámkových bloků a další vlastní aplikace ke clusterům Azure Databricks. Viz Databricks Connect.
Poznámka:
Databricks Connect má omezenou kompatibilitu s apache Spark MLlib, protože Spark MLlib používá sady RDD, zatímco Databricks Connect podporuje pouze rozhraní DATAFrame API. Pokud chcete použít všechny funkce sparklyr pro Spark MLlib, použijte poznámkové bloky Databricks nebo db_repl funkci balíčku brickster.
Tento článek ukazuje, jak rychle začít používat Databricks Connect pro R pomocí sparklyr a RStudio Desktop.
- Informace o službě Databricks Connect pro Python najdete v tématu Databricks Connect pro Python.
- Informace o službě Databricks Connect pro Scala najdete v tématu Databricks Connect pro Scala.
Návod
V následujícím kurzu vytvoříte projekt v RStudio, nainstalujete a nakonfigurujete Databricks Connect pro Databricks Runtime 13.3 LTS a novější a spustíte jednoduchý kód na výpočetních prostředcích v pracovním prostoru Databricks z RStudio. Další informace o tomto kurzu najdete v části Databricks Connect služby Spark Connect a Databricks Connect v2 na sparklyr webu.
Tento kurz používá RStudio Desktop a Python 3.10. Pokud je ještě nemáte nainstalované, install R a RStudio Desktop a Python 3.10.
Požadavky
K dokončení tohoto kurzu musíte splnit následující požadavky:
- Váš cílový workspace a cluster Azure Databricks musí splňovat požadavky na konfiguraci Compute pro Databricks Connect.
- Musíte mít k dispozici ID clusteru. Pokud chcete získat ID clusteru, klikněte v pracovním prostoru na bočním panelu na Compute a potom na název clusteru. V adresní řádku webového prohlížeče zkopírujte řetězec znaků mezi
clustersadresou URL aconfigurationdo adresy URL.
Krok 1: Vytvořte osobní přístupový token
Poznámka:
Databricks Connect pro ověřování pro R v současné době podporuje pouze osobní přístupové tokeny Azure Databricks.
V tomto kurzu se k autentizaci v pracovním prostoru Azure Databricks používá ověřování pomocí osobního přístupového tokenu Azure Databricks.
Pokud už máte Azure Databricks osobní přístupový token, přejděte ke kroku 2. Pokud si nejste jistí, jestli už máte osobní přístupový token Azure Databricks, můžete postupovat podle tohoto kroku, aniž byste ovlivnili jakékoli jiné osobní přístupové tokeny Azure Databricks ve vašem uživatelském účtu.
Chcete-li vytvořit osobní token pro přístup, postupujte podle pokynů v tématu Vytváření osobních tokenů pro uživatele pracovního prostoru.
Krok 2: Vytvoření projektu
- Spusťte RStudio Desktop.
- V hlavní nabídce klikněte na Soubor > Nový Projekt.
- Vyberte Nový adresář.
- Vyberte Nový Project.
- Pro políčka název adresáře a vytvořit projekt jako podadresář z zadejte název nového adresáře projektu a určete, kde má být tento nový adresář projektu vytvořen.
- Vyberte Použijte renv s tímto projektem. Pokud se zobrazí výzva k instalaci aktualizované verze
renvbalíčku, klikněte na tlačítko Ano. - Klikněte na Vytvořit Projekt.
Krok 3: Přidání balíčku Databricks Connect a dalších závislostí
V hlavní nabídce RStudio Desktopu klikněte na Nástroje > instalovat balíčky.
Ponechte Nainstalovat z nastaveno na úložiště (CRAN).
Pro Balíčkyzadejte následující seznam balíčků, které jsou předpokladem pro balíček Databricks Connect a tento kurz:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyrPonechte Nainstalovat do knihovny nastavené na vaše virtuální prostředí R.
Ujistěte se, že je vybrána možnost Instalovat závislosti .
Klikněte na Install (Nainstalovat).
Během zobrazení konzoly (pohled > změnit fokus do konzoly), když se vám zobrazí výzva k pokračování v instalaci, zadejte
Y. Balíčkysparklyrapysparklyrjejich závislosti se nainstalují ve virtuálním prostředí R.V podokně Konsole pomocí příkazu
reticulatenainstalujte Python spuštěním následujícího příkazu. (Databricks Connect pro R vyžaduje, aby se napřed nainstalovalreticulatea Python.) V následujícím příkazu nahraďte3.10hlavní a podverzi Python verze nainstalované v clusteru Azure Databricks. Pokud chcete najít tuto hlavní a vedlejší verzi, přečtěte si část „systémové prostředí“ v poznámkách k verzi Databricks Runtime pro váš klastr v verzích poznámek k vydání a kompatibilitě Databricks Runtime.reticulate::install_python(version = "3.10")V podokně konzoly nainstalujte balíček Databricks Connect spuštěním následujícího příkazu. V následujícím příkazu nahraďte
13.3verzí Databricks Runtime nainstalovanou ve vašem clusteru Azure Databricks. Tuto verzi naleznete na kartě Konfigurace na stránce podrobností vašeho clusteru v pracovním prostoru Azure Databricks, v poli Verze modulu runtime Databricks.pysparklyr::install_databricks(version = "13.3")Pokud neznáte verzi Databricks Runtime pro váš cluster nebo ho nechcete vyhledat, můžete místo toho spustit následující příkaz a dotazovat cluster,
pysparklyraby určil správnou verzi databricks Runtime, která se má použít:pysparklyr::install_databricks(cluster_id = "<cluster-id>")Pokud chcete, aby se váš projekt později připojil k jinému clusteru, který má stejnou verzi Databricks Runtime než ten, který jste právě zadali,
pysparklyrpoužije stejné prostředí Python. Pokud má nový cluster jinou verzi Databricks Runtime, měli byste příkaz spustitpysparklyr::install_databricksznovu s novou verzí databricks Runtime nebo ID clusteru.
krok 4: Nastavení proměnných prostředí pro adresu URL pracovního prostoru, přístupový token a ID clusteru
Databricks nedoporučuje pevně zakódovat nebo měnit hodnoty, jako je adresa URL pracovního prostoru Azure Databricks, Azure Databricks osobní přístupový token nebo Azure Databricks ID clusteru do skriptů R. Místo toho tyto hodnoty uložte samostatně, například v místních proměnných prostředí. V tomto kurzu se používá integrovaná podpora RStudio Desktopu pro ukládání proměnných prostředí do .Renviron souboru.
Vytvořte
.Renvironsoubor pro uložení proměnných prostředí, pokud tento soubor ještě neexistuje, a otevřete tento soubor pro úpravy: v konzole RStudio Desktop Console spusťte následující příkaz:usethis::edit_r_environ()Do zobrazeného
.Renvironsouboru (Zobrazit > přesunout fokus na zdroj) zadejte následující obsah. V tomto obsahu nahraďte následující zástupné symboly:- Nahraďte
<workspace-url>svou adresou URL pro jednotlivé pracovní prostory, napříkladhttps://adb-1234567890123456.7.azuredatabricks.net. - Nahraďte
<personal-access-token>svým osobním přístupovým tokenem Azure Databricks z kroku 1. - Nahraďte
<cluster-id>ID clusteru z požadavků tohoto tutoriálu.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>- Nahraďte
Uložte soubor
.Renviron.Načtěte proměnné prostředí do R: v hlavní nabídce klikněte na Relace > Restartovat R.
Databricks Connect
Krok 5: Přidání kódu
V hlavní nabídce RStudio Desktop klikněte na Soubor > Nový soubor > R skript.
Do souboru zadejte následující kód a uložte soubor (>Uložit soubor) jako
demo.R:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Krok 6: Spuštění kódu
V desktopové aplikaci RStudio, na panelu nástrojů souboru
demo.R, klikněte na Zdroj.
Vkonzoly
se zobrazí prvních pět řádků tabulky . V zobrazení Připojení (Zobrazení > Zobrazit připojení) můžete prozkoumat dostupné katalogy, schémata, tabulky a zobrazení.
Krok 7: Ladění kódu
- V souboru
demo.Rklikněte na okraj vedleprint(trips, n = 5)pro nastavení zarážky. - Na panelu nástrojů souboru
demo.Rklikněte na Zdroj. - Když se kód pozastaví na zarážce, můžete zkontrolovat proměnné v pohledu prostředí (Zobrazit > prostředí).
- V hlavní nabídce klepněte na ladění > pokračovat.
- Vkonzoly
se zobrazí prvních pět řádků tabulky .