다음을 통해 공유


Community Edition 작업 영역을 Free Edition으로 마이그레이션

중요합니다

이 기능은 공개 미리보기 단계에 있습니다.

Databricks Free Edition이 출시되면 CE(Community Edition)가 곧 사용 중지됩니다. Community Edition 작업 영역 소유자는 작업 영역 마이그레이션 도구를 사용하여 가능한 한 빨리 Free Edition으로 마이그레이션해야 합니다. Community Edition과 Free Edition 간의 기능 비교는 기능 비교를 참조하세요.

작업 영역 마이그레이션

마이그레이션 도구를 사용하는 경우 Azure Databricks는 기존 로그인에 연결된 새 무료 버전 작업 영역을 만듭니다. 그런 다음 Notebook 및 데이터가 새 Free Edition 작업 영역으로 마이그레이션됩니다.

마이그레이션을 한 번만 실행할 수 있으므로 시작하기 전에 사용하지 않는 Notebook 및 테이블을 정리해야 합니다. 데이터 마이그레이션에 대한 제한 사항 목록은 제한 사항을 참조하세요.

1단계: 현재 작업 영역 검토

마이그레이션 도구를 사용하기 전에 현재 작업 영역을 검토하고 마이그레이션할 주요 Notebook 및 데이터를 식별합니다. 마이그레이션하려는 테이블과 노트북을 디렉터리 tmpFilestore 밖으로 이동합니다.

2단계: 마이그레이션 프로세스 시작

비고

마이그레이션 도구를 사용하려면 작업 영역 소유자여야 합니다.

CE 작업 영역에서 다음 작업을 수행하십시오.

  1. Community Edition 작업 영역 맨 위에 있는 배너에서 무료 버전으로 이동을 클릭합니다.
  2. 마이그레이션 프로세스를 설명하는 대화 상자입니다.
  3. 마이그레이션을 클릭합니다. CE 작업 영역이 잠기면 로그아웃됩니다. 마이그레이션이 완료될 때까지 다시 로그인하지 않습니다.
  4. 마이그레이션이 완료되면(일반적으로 2시간 미만) 로그인 링크가 포함된 전자 메일을 받게 됩니다.

3단계: 무료 버전 작업 영역 테스트

로그인하면 이제 Community Edition 및 Free Edition 작업 영역이 모두 표시됩니다. 두 작업 영역을 모두 열어 모두 Free Edition 작업 영역으로 마이그레이션했는지 확인합니다.

  1. 작업 영역>사용자>[전자 메일]를 열고 모든 전자 필기장이 있는지 확인합니다.
  2. 카탈로그>기본값을 열고 모든 테이블이 있는지 확인합니다.
  3. 셀별로 키 Notebook을 실행합니다. 오류가 표시되면 일반적인 문제를 참조하세요.

비고

일부 테이블은 더 작은 부분으로 분할된 것을 알 수 있습니다. 예상된 일입니다. 테이블을 다시 병합하는 방법은 내 테이블이 더 작은 조각으로 분할된 것을 참조하세요.

4단계: CE 작업 영역에서 누락된 자산 다운로드

자산이 전송되지 않은 경우 Community Edition 작업 영역에서 수동으로 다운로드하여 Free Edition 작업 영역에 다시 업로드할 수 있습니다.

7일이 지나면 Community Edition 작업 영역이 영구적으로 삭제됩니다. 모든 콘텐츠가 해당 날짜 이전에 새 작업 영역으로 전송되었는지 확인합니다.

제한점

마이그레이션이 모든 리소스를 전송하지 않을 수 있습니다. 마이그레이션을 시작하기 전에 다음 제한 사항을 검토합니다.

  • 무료 버전은 500 테이블의 하드 제한이 있습니다. Community Edition 작업 영역에 테이블이 500개 이상 있는 경우 모든 테이블이 마이그레이션되지 않습니다.
  • 보관된 테이블 또는 테이블의 일부를 마이그레이션하려고 시도하지만, 쿼리 기록에서 오류로 나타날 수 있습니다. 자동 보관은 3개월 이상 액세스되지 않은 데이터에 대해 발생합니다.
  • CSV 파일을 마이그레이션하는 것이 가장 좋습니다. 구분 기호가 잘못 사용되고 열이 함께 그룹화되거나 테이블을 만들지 못하는 경우가 있을 수 있습니다.
  • 지원되는 파일 및 데이터 형식만 마이그레이션합니다. 이러한 자산이 필요한 경우 마이그레이션을 시작하기 전에 작업 영역에서 수동으로 다운로드합니다. 다음 파일 및 데이터 형식은 마이그레이션되지 않습니다.
    • .zip 파일, .mp4 비디오, 시스템 로그
    • XML 파일
    • 숨겨진 파일 또는 지원되지 않는 형식
    • MLflow 실험
    • tmp 또는 Filestore 아래 어떤 것이든지
    • 외부에 저장된 파일 dbfs:/

일반적인 문제 해결

클러스터 크기 또는 인스턴스 유형을 선택할 수 없습니다.

Free Edition은 서버리스 컴퓨팅을 사용하므로 클러스터 크기 또는 인스턴스 유형을 사용자 지정할 수 없습니다. 서버리스 컴퓨팅은 워크로드 요구 사항에 따라 자동으로 크기가 조정됩니다.

팁 (조언)

셀을 실행하여 서버리스 컴퓨팅을 자동으로 시작하거나 드롭다운 메뉴에서 컴퓨팅 리소스를 선택합니다. 지연 또는 오류가 표시되면 워크로드를 경량으로 유지하고 몇 분 후에 다시 시도합니다.

내 파일 중 하나가 전송되지 않음

파일이 비표준 형식(예 .mp4: , .zip숨김) 또는 지원되지 않는 경우에 발생합니다.

팁 (조언)

7일 이내에 Community Edition 작업 영역에서 파일을 다운로드하고 Free Edition 작업 영역에 수동으로 업로드합니다.

테이블이 더 작은 조각으로 분할되었습니다.

일부 CE 테이블은 여러 조각으로 나누어 저장된 큰 파일에 의해 지원되었습니다. 마이그레이션하는 동안 Azure Databricks는 각 부분을 자체 테이블로 복사합니다.

팁 (조언)

UNION ALL을 사용하여 다시 조합합니다.

CREATE OR REPLACE TABLE my_full_table AS
SELECT * FROM my_table_part1
UNION ALL
SELECT * FROM my_table_part2
UNION ALL
SELECT * FROM my_table_part3;

테이블은 전송되었지만, 제 노트북에서는 이를 찾을 수 없습니다.

Notebook에서 테이블을 이름으로 참조하고 있을 가능성이 높지만, 마이그레이션 중에 테이블 이름이 변경되었습니다.

Free Edition에서는 모든 테이블이 workspace.default.<table_name>에서 만들어집니다. 테이블 이름은 다음과 같습니다.

  • 파일이 포함된 디렉터리입니다. 그래서, /my_table/my_table_data_file.parquetmy_table라고 합니다.
  • DBFS 루트의 기본에 있는 경우 파일 이름이 사용됩니다. 그래서, /my_table_data_file.parquetmy_table_data_file라고 합니다.

팁 (조언)

  1. 카탈로그에서 기본 테이블을 찾습니다.

  2. 테이블의 파일 이름을 복사합니다.

  3. Notebook으로 돌아갑니다.

  4. 이전 테이블 위치의 모든 인스턴스를 새 테이블 위치로 바꾸도록 Genie Code에 지시합니다.

    Replace all references to 'old_table_name' with 'workspace.default.new_table_name' in this notebook
    

내 전자 필기장 코드가 작동하지 않음

일반적으로 다음 두 가지 범주로 구분됩니다.

사례 1: RDD를 사용하고 있습니다.

RDD는 레거시 Spark 추상화이며 무료 버전에서는 지원되지 않습니다. 이를 DataFrames로 대체합니다.

팁 (조언)

RDD 코드를 변환하는 데 도움이 되도록 Genie Code에 요청합니다.

Convert all RDD operations in this notebook to DataFrame operations

사례 2: Scala 또는 R을 사용하고 있습니다.

서버리스 컴퓨팅은 Python 및 SQL만 지원합니다. Notebook에서 Scala 또는 R을 사용하는 경우 Python으로 변환해야 합니다.

팁 (조언)

Genie Code에 코드를 번역하도록 요청합니다.

Convert this Scala/R code to Python using PySpark DataFrames

dbutils.fs.mount 명령 실패

새 Azure Databricks 작업 영역은 레거시 DBFS 탑재를 지원하지 않습니다.

팁 (조언)

대신 Unity 카탈로그 외부 위치 및 볼륨을 사용합니다. 데이터 세트 또는 공유 파일을 저장하려면 볼륨을 만듭니다.

CREATE VOLUME IF NOT EXISTS workspace.default.my_volume;

그런 다음 다음을 사용하여 파일에 액세스합니다.

# Write data
df.write.mode("overwrite").option("path", "/Volumes/workspace/default/my_volume/my_data").saveAsTable("my_table")

# Read data
df = spark.read.table("my_table")

/dbfs/에서 파일을 읽거나 쓸 수 없습니다.

Free Edition은 보안을 위해 DBFS 루트에 대한 직접 액세스를 제한합니다.

팁 (조언)

Unity 카탈로그 볼륨을 사용하여 데이터 세트 또는 공유 파일을 저장합니다.

# Create a volume (run once)
spark.sql("CREATE VOLUME IF NOT EXISTS workspace.default.my_data_volume")

# Write files
dbutils.fs.cp("file:/local/path/data.csv", "/Volumes/workspace/default/my_data_volume/")

# Read files
df = spark.read.csv("/Volumes/workspace/default/my_data_volume/data.csv", header=True, inferSchema=True)

기능 비교

다음 표에서는 Community Edition 및 Free Edition에서 사용할 수 있는 기능을 비교합니다.

특징 커뮤니티 에디션 무료 버전
Notebooks
MLflow
Ingestion
Jobs
파이프라인
Dashboards
지니
의미 체계 검색
모델 서빙
모델 평가
Agents
Unity 카탈로그
클린룸
Lakebase
지식 도우미 , 감독자 에이전트
엔터프라이즈 관리자 기능
클래식 컴퓨팅
서버리스 컴퓨팅
GPUs 자체 환경 사용