Databricks Connect pro R

Poznámka:

Tento článek popisuje sparklyr integraci s Databricks Connect pro Databricks Runtime 13.0 a vyšší. Tuto integraci neposkytuje Databricks ani přímo nepodporuje Databricks.

Pokud máte otázky, přejděte do komunity Posit.

Pokud chcete nahlásit problémy, přejděte do části Issues úložiště sparklyr v GitHub.

Další informace najdete v tématu Databricks Connect v2 v sparklyr dokumentaci.

Databricks Connect umožňuje připojit oblíbená integrovaná vývojová prostředí, jako jsou RStudio Desktop, servery poznámkových bloků a další vlastní aplikace ke clusterům Azure Databricks. Viz Databricks Connect.

Poznámka:

Databricks Connect má omezenou kompatibilitu s apache Spark MLlib, protože Spark MLlib používá sady RDD, zatímco Databricks Connect podporuje pouze rozhraní DATAFrame API. Pokud chcete použít všechny funkce sparklyr pro Spark MLlib, použijte poznámkové bloky Databricks nebo db_repl funkci balíčku brickster.

Tento článek ukazuje, jak rychle začít používat Databricks Connect pro R pomocí sparklyr a RStudio Desktop.

Návod

V následujícím kurzu vytvoříte projekt v RStudio, nainstalujete a nakonfigurujete Databricks Connect pro Databricks Runtime 13.3 LTS a novější a spustíte jednoduchý kód na výpočetních prostředcích v pracovním prostoru Databricks z RStudio. Další informace o tomto kurzu najdete v části Databricks Connect služby Spark Connect a Databricks Connect v2 na sparklyr webu.

Tento kurz používá RStudio Desktop a Python 3.10. Pokud je ještě nemáte nainstalované, install R a RStudio Desktop a Python 3.10.

Požadavky

K dokončení tohoto kurzu musíte splnit následující požadavky:

  • Váš cílový workspace a cluster Azure Databricks musí splňovat požadavky na konfiguraci Compute pro Databricks Connect.
  • Musíte mít k dispozici ID clusteru. Pokud chcete získat ID clusteru, klikněte v pracovním prostoru na bočním panelu na Compute a potom na název clusteru. V adresní řádku webového prohlížeče zkopírujte řetězec znaků mezi clusters adresou URL a configuration do adresy URL.

Krok 1: Vytvořte osobní přístupový token

Poznámka:

Databricks Connect pro ověřování pro R v současné době podporuje pouze osobní přístupové tokeny Azure Databricks.

V tomto kurzu se k autentizaci v pracovním prostoru Azure Databricks používá ověřování pomocí osobního přístupového tokenu Azure Databricks.

Pokud už máte Azure Databricks osobní přístupový token, přejděte ke kroku 2. Pokud si nejste jistí, jestli už máte osobní přístupový token Azure Databricks, můžete postupovat podle tohoto kroku, aniž byste ovlivnili jakékoli jiné osobní přístupové tokeny Azure Databricks ve vašem uživatelském účtu.

Chcete-li vytvořit osobní token pro přístup, postupujte podle pokynů v tématu Vytváření osobních tokenů pro uživatele pracovního prostoru.

Krok 2: Vytvoření projektu

  1. Spusťte RStudio Desktop.
  2. V hlavní nabídce klikněte na Soubor > Nový Projekt.
  3. Vyberte Nový adresář.
  4. Vyberte Nový Project.
  5. Pro políčka název adresáře a vytvořit projekt jako podadresář z zadejte název nového adresáře projektu a určete, kde má být tento nový adresář projektu vytvořen.
  6. Vyberte Použijte renv s tímto projektem. Pokud se zobrazí výzva k instalaci aktualizované verze renv balíčku, klikněte na tlačítko Ano.
  7. Klikněte na Vytvořit Projekt.

Vytvoření projektu RStudio Desktop

Krok 3: Přidání balíčku Databricks Connect a dalších závislostí

  1. V hlavní nabídce RStudio Desktopu klikněte na Nástroje > instalovat balíčky.

  2. Ponechte Nainstalovat z nastaveno na úložiště (CRAN).

  3. Pro Balíčkyzadejte následující seznam balíčků, které jsou předpokladem pro balíček Databricks Connect a tento kurz:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Ponechte Nainstalovat do knihovny nastavené na vaše virtuální prostředí R.

  5. Ujistěte se, že je vybrána možnost Instalovat závislosti .

  6. Klikněte na Install (Nainstalovat).

Nainstalujte závislosti balíčku Databricks Connect

  1. Během zobrazení konzoly (pohled > změnit fokus do konzoly), když se vám zobrazí výzva k pokračování v instalaci, zadejte Y. Balíčky sparklyr a pysparklyr jejich závislosti se nainstalují ve virtuálním prostředí R.

  2. V podokně Konsole pomocí příkazu reticulate nainstalujte Python spuštěním následujícího příkazu. (Databricks Connect pro R vyžaduje, aby se napřed nainstaloval reticulate a Python.) V následujícím příkazu nahraďte 3.10 hlavní a podverzi Python verze nainstalované v clusteru Azure Databricks. Pokud chcete najít tuto hlavní a vedlejší verzi, přečtěte si část „systémové prostředí“ v poznámkách k verzi Databricks Runtime pro váš klastr v verzích poznámek k vydání a kompatibilitě Databricks Runtime.

    reticulate::install_python(version = "3.10")
    
  3. V podokně konzoly nainstalujte balíček Databricks Connect spuštěním následujícího příkazu. V následujícím příkazu nahraďte 13.3 verzí Databricks Runtime nainstalovanou ve vašem clusteru Azure Databricks. Tuto verzi naleznete na kartě Konfigurace na stránce podrobností vašeho clusteru v pracovním prostoru Azure Databricks, v poli Verze modulu runtime Databricks.

    pysparklyr::install_databricks(version = "13.3")
    

    Pokud neznáte verzi Databricks Runtime pro váš cluster nebo ho nechcete vyhledat, můžete místo toho spustit následující příkaz a dotazovat cluster, pysparklyr aby určil správnou verzi databricks Runtime, která se má použít:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Pokud chcete, aby se váš projekt později připojil k jinému clusteru, který má stejnou verzi Databricks Runtime než ten, který jste právě zadali, pysparklyr použije stejné prostředí Python. Pokud má nový cluster jinou verzi Databricks Runtime, měli byste příkaz spustit pysparklyr::install_databricks znovu s novou verzí databricks Runtime nebo ID clusteru.

krok 4: Nastavení proměnných prostředí pro adresu URL pracovního prostoru, přístupový token a ID clusteru

Databricks nedoporučuje pevně zakódovat nebo měnit hodnoty, jako je adresa URL pracovního prostoru Azure Databricks, Azure Databricks osobní přístupový token nebo Azure Databricks ID clusteru do skriptů R. Místo toho tyto hodnoty uložte samostatně, například v místních proměnných prostředí. V tomto kurzu se používá integrovaná podpora RStudio Desktopu pro ukládání proměnných prostředí do .Renviron souboru.

  1. Vytvořte .Renviron soubor pro uložení proměnných prostředí, pokud tento soubor ještě neexistuje, a otevřete tento soubor pro úpravy: v konzole RStudio Desktop Console spusťte následující příkaz:

    usethis::edit_r_environ()
    
  2. Do zobrazeného .Renviron souboru (Zobrazit > přesunout fokus na zdroj) zadejte následující obsah. V tomto obsahu nahraďte následující zástupné symboly:

    • Nahraďte <workspace-url> svou adresou URL pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.
    • Nahraďte <personal-access-token> svým osobním přístupovým tokenem Azure Databricks z kroku 1.
    • Nahraďte <cluster-id> ID clusteru z požadavků tohoto tutoriálu.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Uložte soubor .Renviron.

  4. Načtěte proměnné prostředí do R: v hlavní nabídce klikněte na Relace > Restartovat R.

Nastavení proměnných prostředí pro Databricks Connect

Krok 5: Přidání kódu

  1. V hlavní nabídce RStudio Desktop klikněte na Soubor > Nový soubor > R skript.

  2. Do souboru zadejte následující kód a uložte soubor (>Uložit soubor) jakodemo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

Krok 6: Spuštění kódu

  1. V desktopové aplikaci RStudio, na panelu nástrojů souboru demo.R, klikněte na Zdroj.

    Spuštění projektu RStudio Desktop

  2. Vkonzoly se zobrazí prvních pět řádků tabulky .

  3. V zobrazení Připojení (Zobrazení > Zobrazit připojení) můžete prozkoumat dostupné katalogy, schémata, tabulky a zobrazení.

    Připojení zobrazení pro projekt

Krok 7: Ladění kódu

  1. V souboru demo.R klikněte na okraj vedle print(trips, n = 5) pro nastavení zarážky.
  2. Na panelu nástrojů souboru demo.R klikněte na Zdroj.
  3. Když se kód pozastaví na zarážce, můžete zkontrolovat proměnné v pohledu prostředí (Zobrazit > prostředí).
  4. V hlavní nabídce klepněte na ladění > pokračovat.
  5. Vkonzoly se zobrazí prvních pět řádků tabulky .

Ladění desktopového projektu RStudio