R용 Databricks 커넥트

아티클
03/01/2024

참고 항목

이 문서에서는 Databricks Runtime 13.0 이상용 Databricks 커넥트 통합에 대해 설명 sparklyr 합니다. 이 통합은 Databricks에서 제공되거나 Databricks에서 직접 지원되지 않습니다.

질문이 있는 경우 Posit 커뮤니티로 이동하세요.

문제를 보고하려면 GitHub에서 리포지토리의 sparklyr 문제 섹션으로 이동합니다.

자세한 내용은 설명서의 Databricks 커넥트 v2를 sparklyr 참조하세요.

이 문서에서는 R 및 RStudio sparklyrDesktop을 사용하여 Databricks 커넥트 빠르게 시작하는 방법을 보여 줍니다.

이 문서의 Python 버전은 Python용 Databricks 커넥트 참조하세요.
이 문서의 Scala 버전은 Scala용 Databricks 커넥트 참조하세요.

Databricks 커넥트 사용하면 RStudio Desktop, Notebook 서버 및 기타 사용자 지정 애플리케이션과 같은 인기 있는 IDE를 Azure Databricks 클러스터에 연결할 수 있습니다. Databricks 커넥트란?을 참조하세요.

자습서

이 자습서에서는 RStudio Desktop 및 Python 3.10을 사용합니다. 아직 설치되지 않은 경우 R 및 RStudio Desktop 및 Python 3.10을 설치합니다.

이 자습서에 대한 추가 정보는 웹 사이트의 Spark 커넥트 및 Databricks 커넥트 v2의 "Databricks 커넥트" 섹션을 sparklyr 참조하세요.

요구 사항

이 자습서를 완료하려면 다음 요구 사항을 충족해야 합니다.

대상 Azure Databricks 작업 영역 및 클러스터는 Databricks 커넥트 대한 클러스터 구성 요구 사항을 충족해야 합니다.
클러스터 ID를 사용할 수 있어야 합니다. 클러스터 ID를 가져오려면 작업 영역에서 사이드바에서 컴퓨팅을 클릭한 다음 클러스터 이름을 클릭합니다. 웹 브라우저의 주소 표시줄에서 URL 간에 clustersconfiguration 문자 문자열을 복사합니다.

1단계: 개인용 액세스 토큰 만들기

참고 항목

R 인증용 Databricks 커넥트 현재 Azure Databricks 개인용 액세스 토큰만 지원합니다.

이 자습서에서는 Azure Databricks 작업 영역에서 인증하기 위해 Azure Databricks 개인용 액세스 토큰 인증 을 사용합니다.

Azure Databricks 개인용 액세스 토큰이 이미 있는 경우 2단계로 건너뜁니다. Azure Databricks 개인용 액세스 토큰이 이미 있는지 확실하지 않은 경우 사용자 계정의 다른 Azure Databricks 개인 액세스 토큰에 영향을 주지 않고 이 단계를 수행할 수 있습니다.

개인 액세스 토큰을 만들려면 다음을 수행합니다.

Azure Databricks 작업 영역의 위쪽 표시줄에서 Azure Databricks 사용자 이름을 클릭한 다음 드롭다운에서 설정 선택합니다.
개발자를 클릭합니다.
액세스 토큰 옆에 있는 관리를 클릭합니다.
새 토큰 생성을 클릭합니다.
(선택 사항) 나중에 이 토큰을 식별할 수 있도록 하는 설명을 입력하고 토큰의 기본 수명을 90일로 변경합니다. 수명이 없는 토큰을 만들려면(권장하지 않음) 수명(일) 상자를 비워 둡니다(공백).
생성을 클릭합니다.
표시된 토큰을 안전한 위치에 복사한 다음 완료를 클릭합니다.

참고 항목

복사한 토큰을 안전한 위치에 저장합니다. 복사한 토큰을 다른 사용자와 공유하지 마세요. 복사한 토큰을 분실하면 정확히 동일한 토큰을 다시 생성할 수 없습니다. 대신 이 프로시저를 반복하여 새 토큰을 만들어야 합니다. 복사한 토큰이 손실되었거나 토큰이 손상되었다고 생각되는 경우 Databricks는 액세스 토큰 페이지의 토큰 옆에 있는 휴지통(해지) 아이콘을 클릭하여 작업 영역에서 해당 토큰 을 즉시 삭제하는 것이 좋습니다.

작업 영역에서 토큰을 만들거나 사용할 수 없는 경우 작업 영역 관리자가 토큰을 사용하지 않도록 설정했거나 토큰을 만들거나 사용할 수 있는 권한을 부여하지 않았기 때문일 수 있습니다. 작업 영역 관리자 또는 다음을 참조하세요.

2단계: 프로젝트 만들기

RStudio 데스크톱을 시작합니다.
기본 메뉴에서 새 파일 > 프로젝트를 클릭합니다.
새 디렉터리를 선택합니다.
새 프로젝트를 선택합니다.
디렉터리 이름 및 프로젝트 만들기를 하위 디렉터리로 지정하려면 새 프로젝트 디렉터리의 이름과 이 새 프로젝트 디렉터리를 만들 위치를 입력합니다.
이 프로젝트에서 renv 사용을 선택합니다. 업데이트된 버전의 renv 패키지를 설치하라는 메시지가 표시되면 [예]를 클릭합니다.
프로젝트 만들기를 클릭합니다.

RStudio Desktop 프로젝트 만들기

3단계: Databricks 커넥트 패키지 및 기타 종속성 추가

RStudio Desktop 기본 메뉴에서 도구 > 패키지 설치를 클릭합니다.
설치를 CRAN(리포지토리)으로 설정에서 그대로 둡니다.
패키지의 경우 Databricks 커넥트 패키지 및 이 자습서의 필수 구성 요소인 다음 패키지 목록을 입력합니다.
```
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
```
라이브러리에 설치를 R 가상 환경으로 설정된 상태로 둡니다.
설치 종속성이 선택되어 있는지 확인 합니다 .
설치를 클릭합니다.

Databricks 커넥트 패키지 종속성 설치

콘솔 보기(콘솔로 포커스 이동 보기>)에서 설치를 계속하라는 메시지가 표시되면 입력Y합니다. sparklyr 및 pysparklyr 패키지 및 해당 종속성은 R 가상 환경에 설치됩니다.
콘솔 창에서 다음 명령을 실행하여 Python을 설치하는 데 사용합니다reticulate. (R용 Databricks 커넥트 먼저 Python을 reticulate 설치해야 합니다.) 다음 명령에서 Azure Databricks 클러스터에 설치된 Python 버전의 주 버전과 부 버전으로 바꿉 3.10 니다. 이 주 버전과 부 버전을 찾으려면 Databricks 런타임 릴리스 정보 버전 및 호환성에서 클러스터의 Databricks 런타임 버전에 대한 릴리스 정보의 "시스템 환경" 섹션을 참조하세요.
```
reticulate::install_python(version = "3.10")
```
콘솔 창에서 다음 명령을 실행하여 Databricks 커넥트 패키지를 설치합니다. 다음 명령에서 Azure Databricks 클러스터에 설치된 Databricks 런타임 버전으로 바꿉 13.3 니다. 이 버전을 찾으려면 Azure Databricks 작업 영역의 클러스터 세부 정보 페이지에서 구성 탭에서 Databricks 런타임 버전 상자를 참조 하세요.
```
pysparklyr::install_databricks(version = "13.3")
```
클러스터의 Databricks 런타임 버전을 모르거나 검색하지 않으려는 경우 다음 명령을 대신 pysparklyr 실행하고 클러스터를 쿼리하여 사용할 올바른 Databricks 런타임 버전을 확인합니다.
```
pysparklyr::install_databricks(cluster_id = "<cluster-id>")
```
프로젝트가 방금 지정 pysparklyr 한 버전과 동일한 Databricks 런타임 버전이 있는 다른 클러스터에 나중에 연결하려면 동일한 Python 환경을 사용합니다. 새 클러스터에 다른 Databricks 런타임 버전이 있는 경우 새 Databricks 런타임 버전 또는 클러스터 ID를 사용하여 명령을 다시 실행 pysparklyr::install_databricks 해야 합니다.

4단계: 작업 영역 URL, 액세스 토큰 및 클러스터 ID에 대한 환경 변수 설정

Databricks는 Azure Databricks 작업 영역 URL, Azure Databricks 개인용 액세스 토큰 또는 Azure Databricks 클러스터 ID와 같은 값을 R 스크립트로 하드 코딩하거나 변경하는 것을 권장하지 않습니다. 대신 이러한 값을 별도로 저장합니다(예: 로컬 환경 변수). 이 자습서에서는 파일에 환경 변수 .Renviron 를 저장하기 위한 RStudio Desktop의 기본 제공 지원을 사용합니다.

.Renviron 이 파일이 아직 없는 경우 환경 변수를 저장할 파일을 만든 다음 편집을 위해 이 파일을 엽니다. RStudio 데스크톱 콘솔에서 다음 명령을 실행합니다.
```
usethis::edit_r_environ()
```
.Renviron 표시되는 파일(포커스를 원본으로 이동 보기>)에 다음 콘텐츠를 입력합니다. 이 콘텐츠에서 다음 자리 표시자를 바꿉다.
- <workspace-url>을 작업 영역별 URL로 바꿉니다(예: https://adb-1234567890123456.7.azuredatabricks.net).
- 1단계에서 Azure Databricks 개인용 액세스 토큰으로 대체 <personal-access-token> 합니다.
- 이 자습서의 요구 사항에서 클러스터 ID로 대체 <cluster-id> 합니다.
```
DATABRICKS_HOST=<workspace-url>
DATABRICKS_TOKEN=<personal-access-token>
DATABRICKS_CLUSTER_ID=<cluster-id>
```
.Renviron 파일을 저장합니다.
환경 변수를 R에 로드합니다. 기본 메뉴에서 세션 > 다시 시작 R을 클릭합니다.

Databricks 커넥트 대한 환경 변수 설정

5단계: 코드 추가

RStudio Desktop 기본 메뉴에서 새 파일 R 스크립트 파일을 >> 클릭합니다.

파일에 다음 코드를 입력한 다음 파일(파일 > 저장)을 다음과 같이 demo.R저장합니다.

library(sparklyr)
library(dplyr)
library(dbplyr)

sc <- sparklyr::spark_connect(
  master     = Sys.getenv("DATABRICKS_HOST"),
  cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
  token      = Sys.getenv("DATABRICKS_TOKEN"),
  method     = "databricks_connect",
  envname    = "r-reticulate"
)

trips <- dplyr::tbl(
  sc,
  dbplyr::in_catalog("samples", "nyctaxi", "trips")
)

print(trips, n = 5)

6단계: 코드 실행

RStudio Desktop의 파일 도구 모음에서 원본을 demo.R 클릭합니다.
콘솔에서 테이블의 처음 5개 행이 trips 나타납니다.
커넥트 보기(>커넥트 보기)에서 사용 가능한 카탈로그, 스키마, 테이블 및 뷰를 탐색할 수 있습니다.

7단계: 코드 디버그

파일에서 demo.R 옆의 여백을 print(trips, n = 5) 클릭하여 중단점을 설정합니다.
파일의 도구 모음에서 원본을 demo.R 클릭합니다.
중단점에서 실행 중인 코드가 일시 중지되면 환경 보기(환경 보기>)에서 변수를 검사할 수 있습니다.
기본 메뉴에서 계속 디버그 > 를 클릭합니다.
콘솔에서 테이블의 처음 5개 행이 trips 나타납니다.

RStudio Desktop 프로젝트 디버그

다음을 통해 공유

R용 Databricks 커넥트

자습서

요구 사항

1단계: 개인용 액세스 토큰 만들기

2단계: 프로젝트 만들기

3단계: Databricks 커넥트 패키지 및 기타 종속성 추가

4단계: 작업 영역 URL, 액세스 토큰 및 클러스터 ID에 대한 환경 변수 설정

5단계: 코드 추가

6단계: 코드 실행

7단계: 코드 디버그

피드백

피드백

추가 리소스