Share via


작업 영역 개체 소개

이 문서에서는 Azure Databricks 작업 영역 개체를 개략적으로 소개합니다. 가상 사용자 간에 작업 영역 브라우저에서 작업 영역 개체를 만들고, 보고, 구성할 수 있습니다.

클러스터

Azure Databricks 데이터 과학 및 엔지니어링 및 Databricks Machine Learning 클러스터는 프로덕션 ETL 파이프라인 실행, 스트리밍 분석, 임시 분석 및 기계 학습과 같은 다양한 사용 사례에 대한 통합 플랫폼을 제공합니다. 클러스터는 Azure Databricks 컴퓨팅 리소스의 한 유형입니다. 다른 컴퓨팅 리소스 유형에는 Azure Databricks SQL 웨어하우스가 포함됩니다.

클러스터 관리 및 사용에 대한 자세한 내용은 Compute를 참조 하세요.

Notebooks

Notebook은 파일과 테이블, 시각화 및 설명 텍스트에서 작동하는 일련의 실행 가능한 셀(명령)을 포함하는 문서에 대한 웹 기반 인터페이스입니다. 명령은 하나 이상의 이전에 실행된 명령의 출력을 참조하여 순서대로 실행할 수 있습니다.

Notebook은 Azure Databricks에서 코드를 실행하기 위한 하나의 메커니즘입니다. 다른 메커니즘은 작업입니다.

Notebook 관리 및 사용에 대한 자세한 내용은 Databricks Notebook 소개를 참조하세요.

작업

작업은 Azure Databricks에서 코드를 실행하기 위한 하나의 메커니즘입니다. 다른 메커니즘은 Notebooks입니다.

작업 관리 및 사용에 대한 자세한 내용은 Azure Databricks 작업 만들기 및 실행을 참조 하세요.

라이브러리

라이브러리를 사용하면 클러스터에서 실행되는 Notebook 및 작업에 타사 또는 로컬로 빌드된 코드를 사용할 수 있습니다.

라이브러리 관리 및 사용에 대한 자세한 내용은 라이브러리를 참조하세요.

데이터

Azure Databricks 작업 영역에 탑재된 분산 파일 시스템으로 데이터를 가져와서 Azure Databricks Notebooks 및 클러스터에서 작업할 수 있습니다. 다양한 Apache Spark 데이터 원본을 사용하여 데이터에 액세스할 수도 있습니다.

데이터 로드에 대한 자세한 내용은 Databricks Lakehouse로 데이터 수집을 참조 하세요.

파일

Important

이 기능은 공개 미리 보기 상태입니다.

Databricks Runtime 11.3 LTS 이상에서는 Databricks 작업 영역에서 임의의 파일을 만들고 사용할 수 있습니다. 파일은 모든 파일 형식일 수 있습니다. 일반적인 예는 다음과 같습니다.

  • 사용자 지정 모듈에 사용되는 .py 파일.
  • .md 파일(예: README.md).
  • .csv 또는 기타 작은 데이터 파일.
  • .txt 파일.
  • 로그 파일

파일 사용에 대한 자세한 내용은 Azure Databricks의 파일 작업을 참조 하세요. Databricks Notebook을 사용하여 개발할 때 파일을 사용하여 코드를 모듈화하는 방법에 대한 자세한 내용은 Databricks Notebook 간 코드 공유를 참조 하세요.

Git 폴더

Git 폴더는 콘텐츠를 원격 Git 리포지토리에 동기화하여 함께 버전이 조정되는 Azure Databricks 폴더입니다. Databricks Git 폴더를 사용하여 Azure Databricks에서 Notebook을 개발하고 협업 및 버전 제어를 위해 원격 Git 리포지토리를 사용할 수 있습니다.

리포지토리 사용에 대한 자세한 내용은 Databricks Git 폴더와 Git 통합을 참조 하세요.

모델

모델은 MLflow 모델 레지스트리에 등록된 모델을 나타냅니다. 모델 레지스트리는 MLflow 모델의 전체 수명 주기를 관리할 수 있는 중앙 집중식 모델 저장소입니다. 시간순 모델 계보, 모델 버전 관리, 스테이지 전환, 모델 및 모델 버전 주석 및 설명을 제공합니다.

모델 관리 및 사용에 대한 자세한 내용은 Unity 카탈로그에서 모델 수명 주기 관리를 참조 하세요.

실험

MLflow 실험은 MLflow 기계 학습 모델 학습 실행을 위한 액세스 제어 및 조직의 기본 단위입니다. 모든 MLflow 실행은 실험에 속합니다. 각 실험을 통해 실행을 시각화, 검색 및 비교할 수 있을 뿐만 아니라 실행 아티팩트나 다른 도구에서 분석하기 위한 메타데이터를 다운로드할 수 있습니다.

실험 관리 및 사용에 대한 자세한 내용은 MLflow 실험을 사용하여 학습 실행 구성을 참조하세요.

쿼리

쿼리는 데이터와 상호 작용할 수 있는 SQL 문입니다. 자세한 내용은 저장된 쿼리 액세스 및 관리를 참조 하세요.

대시보드

대시보드는 쿼리 시각화 및 해설의 프레젠테이션입니다. 대시보드 또는 레거시 대시보드를 참조하세요.

경고

쿼리에서 반환된 필드가 임계값에 도달했다는 경고입니다. 자세한 내용은 Databricks SQL 경고란?을 참조하세요.

작업 영역 개체에 대한 참조

지금까지 사용자는 일부 Databricks API(%sh)에 대한 경로 접두사를 포함해야 했지만 다른 경우에는 포함되지 /Workspace 않았습니다(%runREST API 입력).

사용자는 어디서나 접두사로 /Workspace 작업 영역 경로를 사용할 수 있습니다. 접두사 없이 경로에 /Workspace 대한 이전 참조가 리디렉션되고 계속 작동합니다. 모든 작업 영역 경로는 볼륨 및 DBFS 경로와 구분하기 위해 접두사를 포함하는 /Workspace 것이 좋습니다.

일관된 /Workspace 경로 접두사 동작의 필수 조건은 다음과 같습니다. 작업 영역 루트 수준에는 폴더가 있을 /Workspace 수 없습니다. /Workspace 루트 수준에 폴더가 있고 이 UX 개선을 사용하도록 설정하려면 만든 폴더를 /Workspace 삭제하거나 이름을 바꾸고 Azure Databricks 계정 팀에 문의하세요.

파일, 폴더 또는 전자 필기장 URL 공유

Azure Databricks 작업 영역에서 작업 영역 파일, Notebook 및 폴더에 대한 URL은 다음과 같은 형식입니다.

작업 영역 파일 URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

Notebook URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

폴더(작업 영역 및 Git) URL

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

현재 경로의 폴더, 파일 또는 Notebook이 Git 끌어오기 명령으로 업데이트되거나 동일한 이름으로 삭제되고 다시 만들어지면 이러한 링크가 끊어질 수 있습니다. 그러나 다음 형식의 링크로 변경하여 적절한 액세스 수준으로 다른 Databricks 사용자와 공유할 작업 영역 경로를 기반으로 링크를 생성할 수 있습니다.

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

URL의 모든 ?o=<16-digit-workspace-ID> 항목을 작업 영역 루트의 파일, 폴더 또는 Notebook 경로로 바꿔 폴더, 전자 필기장 및 파일에 대한 링크를 공유할 수 있습니다. 폴더에 URL을 공유하는 경우 원래 URL에서도 제거 /browse/folders/<16-digit-ID> 합니다.

파일 경로를 얻으려면 공유하려는 작업 영역의 폴더, 전자 필기장 또는 파일을 마우스 오른쪽 단추로 클릭하여 상황에 맞는 메뉴를 열고 URL/경로 전체 경로> 복사를 선택합니다. #workspace 방금 복사한 파일 경로 앞에 추가한 다음 ?o=<16-digit-workspace-ID> 위의 URL 형식과 일치하도록 결과 문자열을 추가합니다.

작업 영역 폴더의 상황에 맞는 메뉴에서 URL 복사 경로 다음에 전체 경로를 선택합니다.

URL 수식 예제 #1: 폴더 URL

작업 영역 폴더 URL을 공유하려면 URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222에서 부분 문자열을 제거 browse/folders/1111111111111111 합니다. 공유하려는 폴더 또는 작업 영역 개체의 경로를 추가 #workspace 합니다.

이 경우 작업 영역 경로는 폴더 /Workspace/Users/user@example.com/team-git/notebooks에 대한 것입니다. 작업 영역에서 전체 경로를 복사한 후 이제 공유 가능한 링크를 생성할 수 있습니다.

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL 공식화 예제 2: Notebook URL

Notebook URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333을 공유하려면 .를 제거합니다 #notebook/2222222222222222/command/3333333333333333. 폴더 또는 작업 영역 개체에 대한 경로를 추가 #workspace 합니다.

이 경우 작업 영역 경로는 Notebook /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook을 가리킵니다. 작업 영역에서 전체 경로를 복사한 후 이제 공유 가능한 링크를 생성할 수 있습니다.

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

이제 공유할 파일, 폴더 또는 전자 필기장 경로에 대한 안정적인 URL이 있습니다. URL 및 식별자에 대한 자세한 내용은 작업 영역 개체에 대한 식별자 가져오기를 참조 하세요.