Databricks Repos는 어떻게 되었나요?

Azure Databricks는 사용자가 작업 영역 UI에서 Git 리포지토리 지원 폴더로 직접 작업할 수 있도록 하는 새 사용자 인터페이스 요소를 롤아웃하여 이전의 별도의 "Repos" 기능 기능을 효과적으로 대체했습니다.

이 변화는 나에게 무엇을 의미합니까?

프로젝트 자산의 공동 버전 Git 기반 소스 제어에 대한 Databricks Repos 기능의 사용자인 경우 핵심 기능은 변경되지 않았습니다. 가장 주목할 만한 차이점은 많은 상황별 UI 작업이 이제 "Repos"가 아닌 "Git 폴더"를 참조한다는 것입니다.

예를 들어 Git 리포지토리에서 백업되는 Databricks 폴더는 UI에서 새로 만들기 및 리포지토리선택하여 만들 수 있습니다.

이제 새로 만들기를 선택하고 Git 폴더를 선택합니다. 같은 것, 다른 이름!

이제

이 변경은 버전 제어 폴더 작업을 간소화하는 몇 가지 향상된 기능을 제공합니다.

  1. 더 나은 폴더 조직: Git 폴더는 모든 수준의 작업 영역 파일 트리에서 만들 수 있으므로 프로젝트에 가장 적합한 방식으로 Git 폴더를 구성할 수 있습니다. 예를 들어 .에서 /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>Git 폴더를 만들 수 있습니다. 리포지토리는 Repos 사용자 폴더의 루트와 같은 고정 디렉터리 수준에서만 만들 수 있습니다 /Workspace/Repos/<user email>/<Repo name>.
    • 참고: Git 폴더는 현재 Repos에서 지원하지 않는 다른 자산을 포함하거나 함께 배치할 수 있습니다. DBSQL 자산 및 MLflow 실험과 같은 지원되지 않는 자산 유형을 Git 폴더로 이동할 수 있습니다. 추가 자산에 대한 직렬화 지원은 시간이 지남에 따라 추가됩니다.
  2. 간소화된 UI 동작: 이 변경은 Git을 사용하여 Databricks 작업 영역으로 직접 작업하는 일반적인 작업 영역 상호 작용을 가져오고 작업 영역과 버전 제어 Git 폴더 간을 탐색하는 데 소요되는 시간을 줄입니다.

특히 무엇이 변경되었습니까?

  1. Git 폴더는 디렉터리 외부에서 /Repos 만들 수 있습니다.
  2. Git 폴더는 Databricks 작업 영역에서 새>Git 폴더를 선택하여 만듭니다. 그러면 아래에 새 Git 폴더 /Workspace/Users/<user-email>/가 만들어집니다.
  3. Git 폴더는 작업 영역 파일 트리의 다양한 깊이에서 만들 수 있습니다 /Workspace/Users/<user-email>. 예를 들어 .에서 /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>Git 폴더를 만들 수 있습니다. 아래에 /Workspace/Users/<user-email>여러 Git 폴더가 있을 수 있습니다.
  4. 지원되지 않는 자산은 Git 폴더에서 허용됩니다. 다른 자산 유형에 대한 Serialization 지원은 시간이 지남에 따라 추가됩니다.
  5. Repos와 달리 원격 리포지토리 URL 없이는 Databricks에 새 Git 폴더를 만들 수 없습니다.

추가 세부 정보

사용자가 만든 기존 리포지토리는 사라지지 않습니다. 사용자는 기존 리포지토리를 Git 폴더로 마이그레이션할 필요가 없습니다. 리포지토리는 작업 영역 UI에 통합되었으며 더 이상 UI에서 별도의 최상위 환경이 아닙니다.

  • 기존 /Repos 참조는 계속 작동 %runjobsdbutils.notebook.run 합니다. 경로 아래에 /Repos 있는 Notebook을 사용하는 참조는 계속 작동합니다.
  • 기존 /Repos 폴더는 아래의 일반 폴더 /Workspace/Workspace/Repos변환되며 특수 처리가 제거될 수 있습니다. 드물게 이 리디렉션이 작동하려면 작업 영역에서 일부 수정해야 할 수 있습니다. 자세한 내용은 작업 영역 개체에 대한 참조를 참조 하세요.

Databricks는 사용자가 Databricks 작업 영역에서 Git 소스 제어에 연결해야 하는 경우 리포지토리 대신 새 Git 폴더를 만드는 것이 좋습니다. Git 리포지토리 및 기타 작업 영역 자산을 공동 배치하면 Git 폴더를 리포지토리보다 더 쉽게 검색하고 관리할 수 있습니다.

Git 폴더 사용 권한 Git 폴더에는 다른 작업 영역 폴더와 동일한 작업 영역 폴더 권한이 있습니다. 대부분의 Git 작업을 수행하려면 사용자에게 권한이 있어야 합니다 CAN_MANAGE .

Git 폴더에서 코드를 실행하는 데 사용해야 하는 DBR은 무엇입니까?

Git 폴더와 레거시 리포지토리 간의 일관된 코드 실행을 위해 사용자가 DBR 14.3 이상인 Git 폴더에서 코드를 실행하는 것이 좋습니다.

CWD(현재 작업 디렉터리) 동작

DBR(Databricks Runtime) 버전 14 이상은 현재 작업 디렉터리가 Notebook이 실행되는 폴더이고 상대 경로를 사용할 수 있는 모든 Notebook에 대해 동일한 CWD(현재 작업 디렉터리) 환경을 제공합니다. 이전 버전의 DBR(Databricks Runtime)에 대한 Git 폴더와 Git이 아닌 폴더의 Notebook 간에 CWD 환경 이 일치하지 않을 수 있습니다.

Python sys.path 동작

DBR(Databricks Runtime) 버전 14.3 이상은 레거시 리포지토리와 Git 폴더에서 동일한 sys.path 동작을 제공합니다. 이전 DBR 버전에서는 루트 리포지토리 디렉터리가 Git 폴더의 sys.path에 자동으로 추가되지 않으므로 Git 폴더는 레거시 리포지토리와 다른 동작을 갖습니다. Python sys.path 의 경우 인터프리터가 모듈을 가져올 때 검색하는 디렉터리 목록을 포함합니다. DBR 14.3 이상을 사용할 수 없는 경우 해결 방법으로 폴더 경로를 sys.path수동으로 추가할 수 있습니다.

상대 경로를 사용하여 디렉터리를 sys.path 추가하는 방법에 대한 예제는 Python 및 R 모듈 가져오기를 참조 하세요.

Python 라이브러리 우선 순위

DBR(Databricks Runtime) 버전 14.3 이상은 레거시 리포지토리와 Git 폴더에서 동일한 Python 라이브러리 우선 순위를 제공합니다.