Databricks Git 폴더에서 파일 자산 관리

Databricks Git 폴더는 Git 기반 원본 리포지토리의 Databricks 관리 클론에 대한 Git 클라이언트 역할을 하므로 작업 영역에서 해당 콘텐츠에 대한 Git 작업의 하위 집합을 수행할 수 있습니다. 이 Git 통합의 일환으로 원격 리포지토리에 저장된 파일은 형식에 따라 "자산"으로 표시되며 형식과 관련된 몇 가지 제한 사항이 있습니다. 특히 Notebook 파일의 형식에 따라 속성이 다릅니다. Git 폴더에서 자산, 특히 IPYNB Notebook을 사용하는 방법을 이해하려면 이 문서를 읽어보세요.

지원되는 자산 유형

특정 Azure Databricks 자산 유형만 Git 폴더에서 지원됩니다. 이 경우 "지원됨"은 "직렬화, 버전 제어 및 지원 Git 리포지토리로 푸시할 수 있습니다."를 의미합니다.

현재 지원되는 자산 유형은 다음과 같습니다.

자산 유형 세부 정보
파일 파일은 직렬화된 데이터이며 라이브러리에서 이진 파일, 코드, 이미지에 이르기까지 모든 것을 포함할 수 있습니다. 자세한 내용은 작업 영역 파일이란?을 참조 하세요.
Notebook Notebook은 특히 Databricks에서 지원하는 Notebook 파일 형식입니다. Notebook은 직렬화되지 않으므로 파일과 별도의 Azure Databricks 자산 유형으로 간주됩니다. Git 폴더는 파일 확장명(예: .ipynb) 또는 파일 확장명 또는 파일 콘텐츠의 특수 마커(예 # Databricks notebook source : 원본 파일 시작 부분의 .py 주석)와 결합된 파일 확장명별 Notebook을 결정합니다.
폴더 폴더는 Git에서 파일의 논리적 그룹화에 대한 직렬화된 정보를 나타내는 Azure Databricks 관련 구조입니다. 예상대로 사용자는 Azure Databricks Git 폴더를 보거나 Azure Databricks CLI를 사용하여 액세스할 때 이를 "폴더"로 경험합니다.

현재 Git 폴더에서 지원되지 않는 Azure Databricks 자산 유형은 다음과 같습니다.

  • DBSQL 쿼리
  • 경고
  • 대시보드(레거시 대시보드 포함)

참고 항목

지원되지 않는 기존 자산을 Git 폴더로 이동할 수 있지만 이러한 자산에 대한 변경 내용을 리포지토리로 다시 커밋할 수는 없습니다. Git 폴더에는 지원되지 않는 새 자산을 만들 수 없습니다.

전자 필기장 형식

Databricks는 "source" 및 "ipynb"라는 두 가지 종류의 상위 수준 Databricks 관련 Notebook 형식을 고려합니다. 사용자가 "원본" 형식으로 Notebook을 커밋하면 Databricks 플랫폼은 언어 접미사(예: .py, .sql.scala또는 .r)를 사용하여 플랫 파일을 커밋합니다. "source" 형식 Notebook은 소스 코드만 포함하며 Notebook 실행 결과인 테이블 표시 및 시각화와 같은 출력을 포함하지 않습니다.

그러나 "ipynb" 형식에는 연결된 출력이 있으며 해당 아티팩트는 생성된 Notebook을 푸시할 때 Git 폴더를 지원하는 Git 리포지토리로 .ipynb 자동으로 푸시됩니다. 코드와 함께 출력을 커밋하려면 "ipynb" Notebook 형식 및 설정 구성을 사용하여 사용자가 생성된 출력을 커밋할 수 있도록 합니다. 따라서 "ipynb"는 Git 폴더를 통해 원격 Git 리포지토리로 푸시된 Notebook용 Databricks에서 더 나은 보기 환경을 지원합니다.

Notebook 원본 형식 세부 정보
source 코드 언어(예: .py.scala.r , 및 .sql)를 알리는 표준 파일 접미사가 있는 코드 파일일 수 있습니다. "source" Notebook은 텍스트 파일로 처리되며 Git 리포지토리로 다시 커밋될 때 연결된 출력을 포함하지 않습니다.
ipynb "ipynb" 파일은 .ipynb 구성된 경우 Databricks Git 폴더에서 지원 Git 리포지토리로 출력(예: 시각화)을 푸시할 수 있습니다. Notebook에는 .ipnynb Databricks Notebook에서 지원하는 모든 언어의 코드가 포함될 수 있습니다(해당 .ipynb부분에도 불구하고py).

Notebook을 실행한 후 출력을 리포지토리로 다시 푸시하려면 (Jupyter) Notebook을 .ipynb 사용합니다. Notebook을 실행하고 Git에서 관리하려면 다음과 같은 .py"원본" 형식을 사용합니다.

지원되는 Notebook 형식 에 대한 자세한 내용은 Databricks Notebook 내보내기 및 가져오기를 참조하세요.

참고 항목

"출력"이란?

출력은 테이블 표시 및 시각화를 포함하여 Databricks 플랫폼에서 Notebook을 실행한 결과입니다.

파일 확장명 외에 전자 필기장이 어떤 형식을 사용하고 있는지 어떻게 할까요??

Databricks에서 관리하는 Notebook 맨 위에는 일반적으로 형식을 나타내는 단일 줄 주석 있습니다. 예를 들어 .py "원본" Notebook의 경우 다음과 같은 줄이 표시됩니다.

# Databricks notebook source

파일의 경우 .ipynb 파일 접미사는 "ipynb" Notebook 형식임을 나타내는 데 사용됩니다.

Databricks Git 폴더의 IPYNB Notebook

Jupyter Notebook(.ipynb 파일)에 대한 지원은 Git 폴더에서 사용할 수 있습니다. Notebook을 사용하여 리포지 .ipynb 토리를 복제하고 Databricks 제품에서 작업한 다음 커밋하여 Notebook으로 .ipynb 푸시할 수 있습니다. Notebook 대시보드와 같은 메타데이터는 유지됩니다. 관리 출력을 커밋할 수 있는지 여부를 제어할 수 있습니다.

Notebook 출력 커밋 .ipynb 허용

기본적으로 Git 폴더에 대한 관리자 설정은 Notebook 출력을 커밋할 수 .ipynb 없습니다. 작업 영역 관리자는 다음 설정을 변경할 수 있습니다.

  1. 관리 설정 > 작업 영역 설정으로 이동합니다.

  2. Git 폴더 > 에서 Git 폴더가 IPYNB 출력을 내보낼 수 있도록 허용 아래에서 허용: IPYNB 출력을 전환할 수 있습니다.

    관리 콘솔: Git 폴더가 IPYNB 출력을 내보내도록 허용합니다.

Important

출력이 포함되면 시각화 및 대시보드 구성은 .ipynb 파일 형식으로 유지됩니다.

IPYNB Notebook 출력 아티팩트 커밋 제어

파일을 커밋 .ipynb 할 때 Databricks는 출력을 커밋하는 방법을 제어할 수 있는 구성 파일을 만듭니다 .databricks/commit_outputs.

  1. 전자 필기장 파일이 있지만 리포지토리에 구성 파일이 없는 경우 .ipynb Git 상태 모달을 엽니다.

  2. 알림 대화 상자에서 commit_outputs 파일 만들기를 클릭합니다.

    Notebook 커밋 UI: commit_outputs 파일 만들기 단추

파일 메뉴에서 구성 파일을 생성할 수도 있습니다. 파일 메뉴에는 구성 파일을 자동으로 업데이트하여 특정 Notebook에 대한 출력의 포함 또는 제외를 지정할 수 있는 컨트롤이 있습니다.

  1. 파일 메뉴에서 Notebook 출력 커밋을 선택합니다.

    참고 부크 편집기: Notebook을 커밋하여 상태 제어합니다.

  2. 대화 상자에서 Notebook 출력을 커밋하기 위한 선택을 확인합니다.

    Notebook 출력 커밋 대화 상자

원본 Notebook을 IPYNB로 변환

Azure Databricks UI를 통해 Git 폴더의 기존 원본 Notebook을 IPYNB Notebook으로 변환할 수 있습니다.

  1. 작업 영역에서 원본 Notebook을 엽니다.

  2. 작업 영역 메뉴에서 파일을 선택한 다음 전자 필기장 형식 변경 [원본]을 선택합니다. Notebook이 이미 IPYNB 형식인 경우 메뉴 요소에 [source]가 [ipynb]가 됩니다.

    전자 필기장 형식 변경 옵션을 보여 주는 작업 영역 파일 메뉴가 확장되었습니다.

  3. 모달 대화 상자에서 "Jupyter Notebook 형식(.ipynb)"을 선택하고 [변경]을 클릭합니다.

    IPYNB Notebook 형식을 선택할 수 있는 모달 대화 상자입니다.

다음도 가능합니다.

  • .ipynb Notebook을 만듭니다.
  • diff를 코드 차이 (셀의 코드 변경) 또는 원시 차이 로 봅니다(코드 변경 내용은 Notebook 출력을 메타데이터로 포함하는 JSON 구문으로 표시됨).

Azure Databricks에서 지원되는 Notebook의 종류에 대한 자세한 내용은 Databricks Notebook 내보내기 및 가져오기를 참조 하세요.