Sdílet prostřednictvím


Databricks Connect pro R

Poznámka:

Tento článek popisuje sparklyr integraci s Databricks Connect pro Databricks Runtime 13.0 a vyšší. Tuto integraci neposkytuje Databricks ani přímo nepodporuje Databricks.

Pokud máte otázky, přejděte do komunity Posit.

Pokud chcete nahlásit problémy, přejděte do části Problémy úložiště na GitHubu sparklyr .

Další informace najdete v tématu Databricks Connect v2 v sparklyr dokumentaci.

Tento článek ukazuje, jak rychle začít používat Databricks Connect pomocí R, sparklyra RStudio Desktopu.

Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbená prostředí ID, jako jsou RStudio Desktop, servery poznámkových bloků a další vlastní aplikace. Podívejte se, co je Databricks Connect?

Kurz

V tomto kurzu se používá RStudio Desktop a Python 3.10. Pokud je ještě nemáte nainstalované, nainstalujte R a RStudio Desktop a Python 3.10.

Další informace o tomto kurzu najdete v části Databricks Connect služby Spark Connect a Databricks Connect v2 na sparklyr webu.

Požadavky

K dokončení tohoto kurzu musíte splnit následující požadavky:

  • Váš cílový pracovní prostor a cluster Azure Databricks musí splňovat požadavky na konfiguraci clusteru pro Databricks Connect.
  • Musíte mít k dispozici ID clusteru. Pokud chcete získat ID clusteru, klikněte v pracovním prostoru na bočním panelu na Compute a potom na název clusteru. V adresní řádku webového prohlížeče zkopírujte řetězec znaků mezi clusters adresou URL a configuration do adresy URL.

Krok 1: Vytvoření tokenu pat

Poznámka:

Databricks Connect pro ověřování R v současné době podporuje pouze tokeny pat azure Databricks.

V tomto kurzu se k ověřování s pracovním prostorem Azure Databricks používá ověřování tokenů pat azure Databricks.

Pokud už máte osobní přístupový token Azure Databricks, přejděte ke kroku 2. Pokud si nejste jistí, jestli už máte osobní přístupový token Azure Databricks, můžete postupovat podle tohoto kroku, aniž byste ovlivnili jakékoli další tokeny pat Azure Databricks ve vašem uživatelském účtu.

Vytvoření osobního přístupového tokenu:

  1. V pracovním prostoru Azure Databricks klikněte na své uživatelské jméno Azure Databricks v horním panelu a pak v rozevíracím seznamu vyberte Nastavení .
  2. Klikněte na Vývojář.
  3. Vedle přístupových tokenů klikněte na Spravovat.
  4. Klikněte na Vygenerovat nový token.
  5. (Volitelné) Zadejte komentář, který vám pomůže identifikovat tento token v budoucnu a změnit výchozí životnost tokenu na 90 dnů. Pokud chcete vytvořit token bez životnosti (nedoporučuje se), nechte pole Životnost (dny) prázdné (prázdné).
  6. Klikněte na Vygenerovat.
  7. Zkopírujte zobrazený token do zabezpečeného umístění a klikněte na tlačítko Hotovo.

Poznámka:

Nezapomeňte zkopírovaný token uložit do zabezpečeného umístění. Nesdílejte svůj zkopírovaný token s ostatními. Pokud ztratíte zkopírovaný token, nemůžete tento úplně stejný token znovu vygenerovat. Místo toho musíte tento postup zopakovat, abyste vytvořili nový token. Pokud ztratíte zkopírovaný token nebo se domníváte, že došlo k ohrožení zabezpečení tokenu, databricks důrazně doporučuje tento token okamžitě odstranit z pracovního prostoru kliknutím na ikonu koše (Odvolat) vedle tokenu na stránce Přístupové tokeny .

Pokud v pracovním prostoru nemůžete vytvářet nebo používat tokeny, může to být proto, že správce pracovního prostoru zakázal tokeny nebo vám neudělil oprávnění k vytváření nebo používání tokenů. Obraťte se na správce pracovního prostoru nebo následující:

Krok 2: Vytvoření projektu

  1. Spusťte RStudio Desktop.
  2. V hlavní nabídce klikněte na Soubor > nový projekt.
  3. Vyberte Nový adresář.
  4. Vyberte Nový projekt.
  5. Jako název adresáře a vytvořit projekt jako podadresář zadejte název nového adresáře projektu a místo pro vytvoření tohoto nového adresáře projektu.
  6. Vyberte Použít verzi renv s tímto projektem. Pokud se zobrazí výzva k instalaci aktualizované verze renv balíčku, klikněte na tlačítko Ano.
  7. Klikněte na Create Project (Vytvořit projekt).

Vytvoření projektu RStudio Desktop

Krok 3: Přidání balíčku Databricks Connect a dalších závislostí

  1. V hlavní nabídce RStudio Desktopu klikněte na Nástroje > instalovat balíčky.

  2. Možnost Instalovat ponechte nastavenou na úložiště (CRAN).

  3. V případě balíčků zadejte následující seznam balíčků, které jsou nezbytné pro balíček Databricks Connect, a tento kurz:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Ponechte možnost Instalovat do knihovny nastavenou na virtuální prostředí R.

  5. Ujistěte se, že je vybrána možnost Instalovat závislosti .

  6. Klikněte na Install (Nainstalovat).

Instalace závislostí balíčku Databricks Connect

  1. Po zobrazení konzoly (zobrazení > přesunout fokus do konzoly) zobrazíte výzvu k pokračování v instalaci, zadejte Y. Balíčky sparklyr a pysparklyr jejich závislosti se nainstalují ve virtuálním prostředí R.

  2. V podokně konzoly použijte reticulate k instalaci Pythonu spuštěním následujícího příkazu. (Databricks Connect pro R vyžaduje reticulate a python musí být nainstalovaný jako první.) V následujícím příkazu nahraďte 3.10 hlavní a podverzí verze Pythonu, která je nainstalovaná v clusteru Azure Databricks. Pokud chcete najít tuto hlavní a podverzi, přečtěte si část Systémové prostředí poznámky k verzi pro verzi Databricks Runtime vašeho clusteru ve verzích a kompatibilitě modulu Databricks Runtime.

    reticulate::install_python(version = "3.10")
    
  3. V podokně konzoly nainstalujte balíček Databricks Connect spuštěním následujícího příkazu. V následujícím příkazu nahraďte 13.3 verzí Databricks Runtime nainstalovanou v clusteru Azure Databricks. Pokud chcete tuto verzi najít, na stránce podrobností vašeho clusteru v pracovním prostoru Azure Databricks na kartě Konfigurace se podívejte do pole Verze modulu Runtime Databricks.

    pysparklyr::install_databricks(version = "13.3")
    

    Pokud neznáte verzi Databricks Runtime pro váš cluster nebo ho nechcete vyhledat, můžete místo toho spustit následující příkaz a dotazovat cluster, pysparklyr aby určil správnou verzi databricks Runtime, která se má použít:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Pokud chcete, aby se váš projekt později připojil k jinému clusteru, který má stejnou verzi Databricks Runtime než ten, který jste právě zadali, pysparklyr použije stejné prostředí Pythonu. Pokud má nový cluster jinou verzi Databricks Runtime, měli byste příkaz spustit pysparklyr::install_databricks znovu s novou verzí databricks Runtime nebo ID clusteru.

Krok 4: Nastavení proměnných prostředí pro adresu URL pracovního prostoru, přístupový token a ID clusteru

Databricks nedoporučuje pevně zakódovat nebo měnit hodnoty, jako je adresa URL pracovního prostoru Azure Databricks, osobní přístupový token Azure Databricks nebo ID clusteru Azure Databricks do skriptů R. Místo toho tyto hodnoty uložte samostatně, například v místních proměnných prostředí. V tomto kurzu se používá integrovaná podpora RStudio Desktopu pro ukládání proměnných prostředí do .Renviron souboru.

  1. Vytvořte .Renviron soubor pro uložení proměnných prostředí, pokud tento soubor ještě neexistuje, a otevřete tento soubor pro úpravy: v konzole RStudio Desktop Console spusťte následující příkaz:

    usethis::edit_r_environ()
    
  2. Do zobrazeného .Renviron souboru (Zobrazit > přesunout fokus na zdroj) zadejte následující obsah. V tomto obsahu nahraďte následující zástupné symboly:

    • Nahraďte adresou URL pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.<workspace-url>
    • Nahraďte <personal-access-token> osobním přístupovým tokenem Azure Databricks z kroku 1.
    • Nahraďte <cluster-id> ID clusteru z požadavků tohoto kurzu.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Uložte soubor .Renviron.

  4. Načtěte proměnné prostředí do jazyka R: v hlavní nabídce klikněte na Tlačítko Restartovat relaci > R.

Nastavení proměnných prostředí pro Databricks Connect

Krok 5: Přidání kódu

  1. V hlavní nabídce RStudio Desktop klepněte na soubor > nový soubor > R skript.

  2. Do souboru zadejte následující kód a uložte soubor (>Uložit soubor) jakodemo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

Krok 6: Spuštění kódu

  1. Na ploše RStudio na panelu nástrojů souboru demo.R klikněte na Zdroj.

    Spuštění projektu RStudio Desktop

  2. V konzole se zobrazí prvních pět řádků trips tabulky.

  3. V zobrazení Připojení (zobrazit > připojení) můžete prozkoumat dostupné katalogy, schémata, tabulky a zobrazení.

    Zobrazení Připojení pro projekt

Krok 7: Ladění kódu

  1. demo.R V souboru klikněte na hřbet vedle print(trips, n = 5) a nastavte zarážku.
  2. Na panelu nástrojů souboru demo.R klikněte na Zdroj.
  3. Když se kód pozastaví na zarážce, můžete zkontrolovat proměnnou v zobrazení Prostředí (Zobrazit > prostředí).
  4. V hlavní nabídce klepněte na tlačítko Pokračovat ladění>.
  5. V konzole se zobrazí prvních pět řádků trips tabulky.

Ladění desktopového projektu RStudio