Połączenie usługi Databricks dla języka R

Uwaga

W tym artykule opisano sparklyr integrację z usługą Databricks Połączenie dla środowiska Databricks Runtime 13.0 lub nowszego. Ta integracja nie jest dostarczana przez usługę Databricks ani bezpośrednio obsługiwana przez usługę Databricks.

W przypadku pytań przejdź do społeczności Posit.

Aby zgłosić problemy, przejdź do sekcji sparklyr Problemy repozytorium w usłudze GitHub.

Aby uzyskać więcej informacji, zobacz Databricks Połączenie v2 w sparklyr dokumentacji.

W tym artykule pokazano, jak szybko rozpocząć pracę z usługą Databricks Połączenie przy użyciu języków R, sparklyri RStudio Desktop.

Usługa Databricks Połączenie umożliwia łączenie popularnych środowisk IDE, takich jak RStudio Desktop, serwery notesów i inne aplikacje niestandardowe do klastrów usługi Azure Databricks. Zobacz Co to jest usługa Databricks Połączenie?.

Samouczek

W tym samouczku są używane programy RStudio Desktop i Python 3.10. Jeśli jeszcze ich nie zainstalowano, zainstaluj programy R i RStudio Desktop i Python 3.10.

Aby uzyskać dodatkowe informacje na temat tego samouczka, zobacz sekcję "Databricks Połączenie" platformy Spark Połączenie i databricks Połączenie v2 w witrynie sparklyr internetowej.

Wymagania

Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:

  • Docelowy obszar roboczy i klaster usługi Azure Databricks muszą spełniać wymagania dotyczące konfiguracji klastra dla usługi Databricks Połączenie.
  • Musisz mieć dostępny identyfikator klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij pozycję Obliczenia na pasku bocznym, a następnie kliknij nazwę klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między clusters i configuration w adresie URL.

Krok 1. Tworzenie osobistego tokenu dostępu

Uwaga

Usługa Databricks Połączenie na potrzeby uwierzytelniania języka R obecnie obsługuje tylko osobiste tokeny dostępu usługi Azure Databricks.

W tym samouczku używane jest uwierzytelnianie osobistego tokenu dostępu usługi Azure Databricks do uwierzytelniania w obszarze roboczym usługi Azure Databricks.

Jeśli masz już osobisty token dostępu usługi Azure Databricks, przejdź do kroku 2. Jeśli nie masz już osobistego tokenu dostępu usługi Azure Databricks, możesz wykonać ten krok bez wpływu na inne osobiste tokeny dostępu usługi Azure Databricks na koncie użytkownika.

Aby utworzyć osobisty token dostępu:

  1. W obszarze roboczym usługi Azure Databricks kliknij nazwę użytkownika usługi Azure Databricks na górnym pasku, a następnie wybierz pozycję Ustawienia z listy rozwijanej.
  2. Kliknij pozycję Deweloper.
  3. Obok pozycji Tokeny dostępu kliknij pozycję Zarządzaj.
  4. Kliknij pozycję Generuj nowy token.
  5. (Opcjonalnie) Wprowadź komentarz, który pomaga zidentyfikować ten token w przyszłości i zmienić domyślny okres istnienia tokenu na 90 dni. Aby utworzyć token bez okresu istnienia (niezalecane), pozostaw puste pole Okres istnienia (dni) (puste).
  6. Kliknij pozycję Generate (Generuj).
  7. Skopiuj wyświetlony token do bezpiecznej lokalizacji, a następnie kliknij przycisk Gotowe.

Uwaga

Pamiętaj, aby zapisać skopiowany token w bezpiecznej lokalizacji. Nie udostępniaj skopiowanego tokenu innym osobom. W przypadku utraty skopiowanego tokenu nie można wygenerować tego samego tokenu. Zamiast tego należy powtórzyć tę procedurę, aby utworzyć nowy token. Jeśli utracisz skopiowany token lub uważasz, że token został naruszony, usługa Databricks zdecydowanie zaleca natychmiastowe usunięcie tego tokenu z obszaru roboczego, klikając ikonę kosza (Odwołaj) obok tokenu na stronie Tokeny dostępu.

Jeśli nie możesz utworzyć lub użyć tokenów w obszarze roboczym, może to być spowodowane tym, że administrator obszaru roboczego wyłączył tokeny lub nie udzielił Ci uprawnień do tworzenia lub używania tokenów. Zobacz administratora obszaru roboczego lub następujące elementy:

Krok 2. Tworzenie projektu

  1. Uruchom program RStudio Desktop.
  2. W menu głównym kliknij pozycję Plik > nowy projekt.
  3. Wybierz pozycję Nowy katalog.
  4. Wybierz pozycję Nowy projekt.
  5. W obszarze Nazwa katalogu i Utwórz projekt jako podkatalog wprowadź nazwę nowego katalogu projektu i miejsce utworzenia nowego katalogu projektu.
  6. Wybierz pozycję Użyj ponownego odwzorowania z tym projektem. Jeśli zostanie wyświetlony monit o zainstalowanie zaktualizowanej renv wersji pakietu, kliknij przycisk Tak.
  7. Kliknij pozycję Create Project (Utwórz projekt).

Tworzenie projektu programu RStudio Desktop

Krok 3. Dodawanie pakietu usługi Databricks Połączenie i innych zależności

  1. W menu głównym programu RStudio Desktop kliknij pozycję Narzędzia > Zainstaluj pakiety.

  2. Pozostaw opcję Zainstaluj z zestawu na wartość Repository (CRAN).

  3. W obszarze Pakiety wprowadź następującą listę pakietów, które są wymaganiami wstępnymi dla pakietu Połączenie usługi Databricks i tego samouczka:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Pozostaw opcję Zainstaluj w bibliotece ustawioną na środowisko wirtualne języka R.

  5. Upewnij się, że wybrano opcję Zainstaluj zależności .

  6. Kliknij przycisk Zainstaluj.

Instalowanie zależności pakietów usługi Databricks Połączenie

  1. Po wyświetleniu monitu w widoku Konsoli (Wyświetl > przenieś fokus do konsoli), aby kontynuować instalację, wprowadź .Y Pakiety sparklyr i pysparklyr i oraz ich zależności są instalowane w środowisku wirtualnym języka R.

  2. W okienku Konsola użyj polecenia reticulate , aby zainstalować język Python, uruchamiając następujące polecenie. (Usługa Databricks Połączenie dla języka R wymagareticulate, aby język Python był najpierw zainstalowany). W poniższym poleceniu zastąp 3.10 wersję główną i pomocniczą wersji języka Python zainstalowaną w klastrze usługi Azure Databricks. Aby znaleźć tę wersję główną i pomocniczą, zobacz sekcję "Środowisko systemowe" informacji o wersji środowiska Databricks Runtime klastra w wersjach i zgodności środowiska Databricks Runtime.

    reticulate::install_python(version = "3.10")
    
  3. W okienku Konsola zainstaluj pakiet usługi Databricks Połączenie, uruchamiając następujące polecenie. W poniższym poleceniu zastąp element 13.3 wersją środowiska Databricks Runtime zainstalowaną w klastrze usługi Azure Databricks. Aby znaleźć tę wersję, na stronie szczegółów klastra w obszarze roboczym usługi Azure Databricks na karcie Konfiguracja zobacz pole Wersja środowiska uruchomieniowego usługi Databricks.

    pysparklyr::install_databricks(version = "13.3")
    

    Jeśli nie znasz wersji środowiska Databricks Runtime dla klastra lub nie chcesz go wyszukać, możesz zamiast tego uruchomić następujące polecenie i pysparklyr wykona zapytanie względem klastra, aby określić poprawną wersję środowiska Databricks Runtime do użycia:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Jeśli chcesz, aby projekt łączył się później z innym klastrem, który ma tę samą wersję środowiska Databricks Runtime niż określona przez Ciebie, pysparklyr będzie używać tego samego środowiska języka Python. Jeśli nowy klaster ma inną wersję środowiska Databricks Runtime, należy ponownie uruchomić pysparklyr::install_databricks polecenie z nową wersją środowiska Databricks Runtime lub identyfikatorem klastra.

Krok 4. Ustawianie zmiennych środowiskowych dla adresu URL obszaru roboczego, tokenu dostępu i identyfikatora klastra

Usługa Databricks nie zaleca kodowania poufnych lub zmieniających się wartości, takich jak adres URL obszaru roboczego usługi Azure Databricks, osobisty token dostępu usługi Azure Databricks lub identyfikator klastra usługi Azure Databricks do skryptów języka R. Zamiast tego należy przechowywać te wartości oddzielnie, na przykład w lokalnych zmiennych środowiskowych. W tym samouczku jest używana wbudowana obsługa programu RStudio Desktop do przechowywania zmiennych środowiskowych w .Renviron pliku.

  1. .Renviron Utwórz plik do przechowywania zmiennych środowiskowych, jeśli ten plik jeszcze nie istnieje, a następnie otwórz ten plik do edycji: w konsoli programu RStudio Desktop uruchom następujące polecenie:

    usethis::edit_r_environ()
    
  2. W wyświetlonym .Renviron pliku (Wyświetl > przenieś fokus do źródła) wprowadź następującą zawartość. W tej zawartości zastąp następujące symbole zastępcze:

    • Zastąp <workspace-url> ciąg adresem URL obszaru roboczego, na przykład https://adb-1234567890123456.7.azuredatabricks.net.
    • Zastąp <personal-access-token> element osobistym tokenem dostępu usługi Azure Databricks z kroku 1.
    • Zastąp <cluster-id> element identyfikatorem klastra z wymagań tego samouczka.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Zapisz plik .Renviron.

  4. Załaduj zmienne środowiskowe do języka R: w menu głównym kliknij pozycję Uruchom ponownie sesję > języka R.

Ustawianie zmiennych środowiskowych dla usługi Databricks Połączenie

Krok 5. Dodawanie kodu

  1. W menu głównym programu RStudio Desktop kliknij pozycję Plik > nowy plik > R Script.

  2. Wprowadź następujący kod w pliku, a następnie zapisz plik (Zapisz plik>) jako demo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

Krok 6. Uruchamianie kodu

  1. Na pulpicie programu RStudio na pasku narzędzi pliku demo.R kliknij pozycję Źródło.

    Uruchamianie projektu programu RStudio Desktop

  2. W konsoli pojawi się pięć pierwszych wierszy trips tabeli.

  3. W widoku Połączenie ions (View > Show Połączenie ions) możesz eksplorować dostępne wykazy, schematy, tabele i widoki.

    Widok Połączenie ions dla projektu

Krok 7. Debugowanie kodu

  1. demo.R W pliku kliknij gutter obok, aby ustawić print(trips, n = 5) punkt przerwania.
  2. Na pasku narzędzi demo.R pliku kliknij pozycję Źródło.
  3. Gdy kod wstrzymuje działanie w punkcie przerwania, możesz sprawdzić zmienną w widoku Środowisko (Wyświetl > pokaż środowisko).
  4. W menu głównym kliknij pozycję Debuguj > kontynuuj.
  5. W konsoli pojawi się pięć pierwszych wierszy trips tabeli.

Debugowanie projektu programu RStudio Desktop