이 페이지에서는 Notebook 컴퓨팅 리소스에 대한 옵션을 다룹니다. 다목적 컴퓨팅 리소스, 서버리스 컴퓨팅에서 Notebook을 실행하거나 SQL 명령에 대해 SQL 분석에 최적화된 유형의 SQL 웨어하우스를 사용할 수 있습니다. 컴퓨팅 유형에 대한 자세한 내용은 Compute를 참조하세요.
기본 컴퓨팅
Unity 카탈로그에 사용하도록 설정된 작업 영역에서 새 Notebook은 기본적으로 서버리스 컴퓨팅으로 설정됩니다. 컴퓨팅 리소스를 수동으로 선택하고 셀을 실행하지 않으면 Notebook이 자동으로 서버리스 컴퓨팅에 연결됩니다.
컴퓨팅 자동 연결
개발자 설정에서 노트북을 컴퓨트 리소스에 자동 연결하여 편집기와 상호 작용할 때 세션을 시작하도록 구성할 수 있습니다.
왼쪽 위에서 사용자 아이콘을 클릭합니다.
설정을 클릭합니다.
개발자를 클릭하여 개발자 설정으로 이동합니다.
편집기 상호 작용 시 자동 세션 생성을 활성화하면 편집기 상호 작용 시 자동으로 컴퓨팅 세션이 시작됩니다. Databricks는 사용자의 기본 설정(서버리스 또는 SQL 웨어하우스) 및 마지막으로 사용된 컴퓨팅 리소스를 기준으로 컴퓨팅 리소스를 자동으로 선택합니다.
OR
Notebook을 자동으로 연결하고 컴퓨팅 리소스를 시작하지 않으려면 이 설정을 끕니다.
자동 완성, 코드 서식 지정 및 디버거를 비롯한 코드 지원 기능을 사용하려면 Notebook을 활성 컴퓨팅 세션에 연결해야 합니다. Notebook에서 컴퓨팅 세션을 시작하지 않은 경우 코드 지원 기능이 비활성 상태입니다.
Notebooks에 대한 서버리스 컴퓨팅
서버리스 컴퓨팅을 사용하면 Notebook을 주문형 컴퓨팅 리소스에 빠르게 연결할 수 있습니다.
서버리스 컴퓨팅에 연결하려면 Notebook에서 컴퓨팅 드롭다운 메뉴를 클릭하고 서버리스를 선택합니다.
자세한 내용은 Notebooks에 대한 서버리스 컴퓨팅을 참조하세요.
서버리스 노트북의 자동 세션 복원
서버리스 컴퓨팅의 유휴 종료로 인해 Notebook에서 Python 변수 값과 같은 진행 중인 작업이 손실될 수 있습니다. 이를 방지하려면 서버리스 노트북에 대해 자동화된 세션 복원을 켜십시오.
- 작업 영역의 오른쪽 위에 있는 사용자 이름을 클릭한 다음 드롭다운 목록에서 설정을 클릭합니다.
- 설정 사이드바에서 개발자를 선택합니다.
- 실험적 기능에서 서버리스 노트북의 세션 자동 복원 설정을 켭니다.
이 설정을 사용하면 Databricks가 유휴 종료 전에 서버리스 Notebook의 메모리 상태를 스냅샷할 수 있습니다. 유휴 연결이 끊긴 후 전자 필기장으로 돌아가면 페이지 맨 위에 배너가 나타납니다. 다시 연결(Reconnect)을 클릭하여 작업 상태를 복원합니다.
다시 연결하면 Databricks는 다음을 포함하여 전체 작업 환경을 복원합니다.
- Python 변수, 함수 및 클래스 정의: Python 상태는 pickle/cloudpickle을 사용하여 in-process로 직렬화되고 새 REPL로 복원되므로 다시 가져오거나 다시 만들 필요가 없습니다.
- Spark 데이터 프레임, 캐시된 뷰 및 임시 뷰: 로드, 변환 또는 캐시된 데이터(임시 뷰 포함)는 유지되므로 비용이 많이 드는 다시 로드 또는 다시 계산을 방지할 수 있습니다.
- Spark 세션 상태: Spark 수준 구성 설정, 임시 뷰, 카탈로그 수정 및 UDF(사용자 정의 함수)는 Spark Connect 세션 마이그레이션을 통해 복원되므로 다시 설정할 필요가 없습니다.
환경이 역직렬화를 안전하지 않은 방식으로 변경한 경우(예: 호환되지 않는 Python 또는 패키지 버전) 스냅샷이 무효화되고 Notebook이 새 세션으로 대체됩니다.
스냅샷 데이터 스토리지
스냅샷 데이터는 작업 영역의 기본 스토리지에 저장됩니다. Notebook 자체는 Notebook ID, 타임스탬프 및 세션 정보가 있는 포인터를 포함하여 메타데이터만 저장합니다. 데이터 페이로드는 Notebook에 저장되지 않습니다. Blob 경로는 Notebook 특성에 저장되기 전에 암호화되며, 스냅샷 경로는 다른 작업 영역으로 상태를 복원하지 못하도록 Notebook 내보내기 및 가져오기에서 제외됩니다.
스냅샷은 클라우드 스토리지 TTL 기본값(약 1개월)을 따르고 자동으로 만료됩니다. Notebook을 삭제하면 스냅샷도 삭제됩니다. 클라우드 계정에는 표준 작업 영역 스토리지 사용량의 일부로 스토리지 비용이 발생합니다. 이 기능은 컨테이너 수준의 체크포인팅 대신 Python 프로세스 직렬화를 사용하여 스냅샷을 작고 빠르게 생성할 수 있습니다.
보안 및 액세스 제어
스냅샷 복원은 Notebook 사용 권한을 따릅니다. 상태를 복원하려면 Notebook에 대한 RUN 권한이 필요합니다. 암호화된 메타데이터는 뷰어에서 스냅샷 Blob을 직접 가져올 수 없으므로 복원할 때 사용 권한 검사가 적용됩니다.
제한점
이 기능에는 제한 사항이 있으며 다음 복원을 지원하지 않습니다.
- 4일보다 오래된 Spark 상태
- 50 MB보다 큰 Spark 상태 데이터
- SQL 스크립팅과 관련된 데이터
- 파일 핸들
- 잠금 및 기타 동시성 기본 형식
- 네트워크 연결
다목적 컴퓨팅 리소스에 노트북 연결
전자 필기장을 다목적 컴퓨팅 리소스에 연결하려면 컴퓨팅 리소스에 대한 CAN ATTACH TO 권한 필요합니다.
중요합니다
노트북이 컴퓨팅 자원에 연결되어 있는 동안, notebook에 대한
Notebook을 컴퓨팅 리소스에 연결하려면 Notebook 도구 모음에서 컴퓨팅 선택기를 클릭하고 드롭다운 메뉴에서 리소스를 선택합니다.
메뉴에는 최근에 사용했거나 현재 실행 중인 다목적 컴퓨팅 및 SQL 웨어하우스가 표시됩니다.
사용 가능한 모든 컴퓨팅 중에서 선택하려면 더 보기...클릭하세요. 사용 가능한 일반 컴퓨팅 또는 SQL 웨어하우스 중에서 선택합니다.
드롭다운 메뉴에서 새 리소스 만들기를 선택하여 새 다목적 컴퓨팅 리소스 를 만들 수도 있습니다.
중요합니다
연결된 Notebook에는 다음과 같은 Apache Spark 변수가 정의되어 있습니다.
| 클래스 | 변수 이름 |
|---|---|
SparkContext |
sc |
SQLContext/HiveContext |
sqlContext |
SparkSession(Spark 2.x) |
spark |
SparkSession나 SparkContext 또는 SQLContext를 만들지 마세요. 이렇게 하면 일관되지 않은 동작이 발생합니다.
SQL 웨어하우스에서 노트북 사용
Notebook이 SQL 웨어하우스에 연결된 경우 SQL 및 Markdown 셀을 실행할 수 있습니다. 다른 언어(예: Python 또는 R)로 셀을 실행하면 오류가 발생합니다. SQL 웨어하우스에서 실행되는 SQL 셀은 SQL 웨어하우스의 쿼리 기록에 표시됩니다. 쿼리를 실행한 사용자는 출력 맨 아래에 있는 경과된 시간을 클릭하여 Notebook에서 쿼리 프로필을 확인할 수 있습니다.
SQL 웨어하우스에 연결된 Notebook은 여러 쿼리 실행에서 변수를 정의하고, 임시 보기를 만들고, 상태를 유지할 수 있는 SQL 웨어하우스 세션을 지원합니다. 모든 문을 한 번에 실행하지 않고도 SQL 논리를 반복적으로 빌드할 수 있습니다. SQL 웨어하우스 세션이란?을 참조하세요.
노트북을 실행하려면 프로 또는 서버리스 SQL 웨어하우스가 필요합니다. 작업 영역 및 SQL 웨어하우스에 액세스할 수 있어야 합니다.
SQL 웨어하우스에 Notebook을 연결하려면 다음을 수행합니다.
Notebook 도구 모음에서 컴퓨팅 선택기를 클릭합니다. 드롭다운 메뉴에는 현재 실행 중이거나 최근에 사용한 컴퓨팅 리소스가 표시됩니다. SQL 웨어하우스는
로 표시됩니다.메뉴에서 SQL 웨어하우스를 선택합니다.
사용 가능한 모든 SQL 웨어하우스를 보려면 드롭다운 메뉴에서 자세히... 를 선택합니다. Notebook에 사용할 수 있는 컴퓨팅 리소스를 보여 주는 대화 상자가 나타납니다. SQL Warehouse를 선택하고 사용할 웨어하우스를 선택한 다음 연결을 클릭합니다.
워크플로 또는 예약된 작업을 만들 때 SQL Notebook의 컴퓨팅 리소스로 SQL 웨어하우스를 선택할 수도 있습니다.
SQL 웨어하우스 제한 사항
자세한 내용은 Databricks Notebook의 알려진 제한 사항을 참조하세요 .