중요합니다
이 기능은 공개 미리보기 단계에 있습니다.
Databricks Free Edition이 출시되면 CE(Community Edition)가 곧 사용 중지됩니다. Community Edition 작업 영역 소유자는 작업 영역 마이그레이션 도구를 사용하여 가능한 한 빨리 Free Edition으로 마이그레이션해야 합니다. Community Edition과 Free Edition 간의 기능 비교는 기능 비교를 참조하세요.
작업 영역 마이그레이션
마이그레이션 도구를 사용하는 경우 Azure Databricks는 기존 로그인에 연결된 새 무료 버전 작업 영역을 만듭니다. 그런 다음 Notebook 및 데이터가 새 Free Edition 작업 영역으로 마이그레이션됩니다.
마이그레이션을 한 번만 실행할 수 있으므로 시작하기 전에 사용하지 않는 Notebook 및 테이블을 정리해야 합니다. 데이터 마이그레이션에 대한 제한 사항 목록은 제한 사항을 참조하세요.
1단계: 현재 작업 영역 검토
마이그레이션 도구를 사용하기 전에 현재 작업 영역을 검토하고 마이그레이션할 주요 Notebook 및 데이터를 식별합니다. 마이그레이션하려는 테이블과 노트북을 디렉터리 tmp와 Filestore 밖으로 이동합니다.
2단계: 마이그레이션 프로세스 시작
비고
마이그레이션 도구를 사용하려면 작업 영역 소유자여야 합니다.
CE 작업 영역에서 다음 작업을 수행하십시오.
- Community Edition 작업 영역 맨 위에 있는 배너에서 무료 버전으로 이동을 클릭합니다.
- 마이그레이션 프로세스를 설명하는 대화 상자입니다.
- 마이그레이션을 클릭합니다. CE 작업 영역이 잠기면 로그아웃됩니다. 마이그레이션이 완료될 때까지 다시 로그인하지 않습니다.
- 마이그레이션이 완료되면(일반적으로 2시간 미만) 로그인 링크가 포함된 전자 메일을 받게 됩니다.
3단계: 무료 버전 작업 영역 테스트
로그인하면 이제 Community Edition 및 Free Edition 작업 영역이 모두 표시됩니다. 두 작업 영역을 모두 열어 모두 Free Edition 작업 영역으로 마이그레이션했는지 확인합니다.
- 작업 영역>사용자>[전자 메일]를 열고 모든 전자 필기장이 있는지 확인합니다.
- 카탈로그>기본값을 열고 모든 테이블이 있는지 확인합니다.
- 셀별로 키 Notebook을 실행합니다. 오류가 표시되면 일반적인 문제를 참조하세요.
비고
일부 테이블은 더 작은 부분으로 분할된 것을 알 수 있습니다. 예상된 일입니다. 테이블을 다시 병합하는 방법은 내 테이블이 더 작은 조각으로 분할된 것을 참조하세요.
4단계: CE 작업 영역에서 누락된 자산 다운로드
자산이 전송되지 않은 경우 Community Edition 작업 영역에서 수동으로 다운로드하여 Free Edition 작업 영역에 다시 업로드할 수 있습니다.
7일이 지나면 Community Edition 작업 영역이 영구적으로 삭제됩니다. 모든 콘텐츠가 해당 날짜 이전에 새 작업 영역으로 전송되었는지 확인합니다.
제한점
마이그레이션이 모든 리소스를 전송하지 않을 수 있습니다. 마이그레이션을 시작하기 전에 다음 제한 사항을 검토합니다.
- 무료 버전은 500 테이블의 하드 제한이 있습니다. Community Edition 작업 영역에 테이블이 500개 이상 있는 경우 모든 테이블이 마이그레이션되지 않습니다.
- 보관된 테이블 또는 테이블의 일부를 마이그레이션하려고 시도하지만, 쿼리 기록에서 오류로 나타날 수 있습니다. 자동 보관은 3개월 이상 액세스되지 않은 데이터에 대해 발생합니다.
- CSV 파일을 마이그레이션하는 것이 가장 좋습니다. 구분 기호가 잘못 사용되고 열이 함께 그룹화되거나 테이블을 만들지 못하는 경우가 있을 수 있습니다.
- 지원되는 파일 및 데이터 형식만 마이그레이션합니다. 이러한 자산이 필요한 경우 마이그레이션을 시작하기 전에 작업 영역에서 수동으로 다운로드합니다. 다음 파일 및 데이터 형식은 마이그레이션되지 않습니다.
-
.zip파일,.mp4비디오, 시스템 로그 - XML 파일
- 숨겨진 파일 또는 지원되지 않는 형식
- MLflow 실험
-
tmp또는Filestore아래 어떤 것이든지 - 외부에 저장된 파일
dbfs:/
-
일반적인 문제 해결
클러스터 크기 또는 인스턴스 유형을 선택할 수 없습니다.
Free Edition은 서버리스 컴퓨팅을 사용하므로 클러스터 크기 또는 인스턴스 유형을 사용자 지정할 수 없습니다. 서버리스 컴퓨팅은 워크로드 요구 사항에 따라 자동으로 크기가 조정됩니다.
팁 (조언)
셀을 실행하여 서버리스 컴퓨팅을 자동으로 시작하거나 드롭다운 메뉴에서 컴퓨팅 리소스를 선택합니다. 지연 또는 오류가 표시되면 워크로드를 경량으로 유지하고 몇 분 후에 다시 시도합니다.
내 파일 중 하나가 전송되지 않음
파일이 비표준 형식(예 .mp4: , .zip숨김) 또는 지원되지 않는 경우에 발생합니다.
팁 (조언)
7일 이내에 Community Edition 작업 영역에서 파일을 다운로드하고 Free Edition 작업 영역에 수동으로 업로드합니다.
테이블이 더 작은 조각으로 분할되었습니다.
일부 CE 테이블은 여러 조각으로 나누어 저장된 큰 파일에 의해 지원되었습니다. 마이그레이션하는 동안 Azure Databricks는 각 부분을 자체 테이블로 복사합니다.
팁 (조언)
UNION ALL을 사용하여 다시 조합합니다.
CREATE OR REPLACE TABLE my_full_table AS
SELECT * FROM my_table_part1
UNION ALL
SELECT * FROM my_table_part2
UNION ALL
SELECT * FROM my_table_part3;
테이블은 전송되었지만, 제 노트북에서는 이를 찾을 수 없습니다.
Notebook에서 테이블을 이름으로 참조하고 있을 가능성이 높지만, 마이그레이션 중에 테이블 이름이 변경되었습니다.
Free Edition에서는 모든 테이블이 workspace.default.<table_name>에서 만들어집니다. 테이블 이름은 다음과 같습니다.
- 파일이 포함된 디렉터리입니다. 그래서,
/my_table/my_table_data_file.parquet를my_table라고 합니다. - DBFS 루트의 기본에 있는 경우 파일 이름이 사용됩니다. 그래서,
/my_table_data_file.parquet를my_table_data_file라고 합니다.
팁 (조언)
카탈로그에서 기본 테이블을 찾습니다.
테이블의 파일 이름을 복사합니다.
Notebook으로 돌아갑니다.
이전 테이블 위치의 모든 인스턴스를 새 테이블 위치로 바꾸도록 Genie Code에 지시합니다.
Replace all references to 'old_table_name' with 'workspace.default.new_table_name' in this notebook
내 전자 필기장 코드가 작동하지 않음
일반적으로 다음 두 가지 범주로 구분됩니다.
사례 1: RDD를 사용하고 있습니다.
RDD는 레거시 Spark 추상화이며 무료 버전에서는 지원되지 않습니다. 이를 DataFrames로 대체합니다.
팁 (조언)
RDD 코드를 변환하는 데 도움이 되도록 Genie Code에 요청합니다.
Convert all RDD operations in this notebook to DataFrame operations
사례 2: Scala 또는 R을 사용하고 있습니다.
서버리스 컴퓨팅은 Python 및 SQL만 지원합니다. Notebook에서 Scala 또는 R을 사용하는 경우 Python으로 변환해야 합니다.
팁 (조언)
Genie Code에 코드를 번역하도록 요청합니다.
Convert this Scala/R code to Python using PySpark DataFrames
dbutils.fs.mount 명령 실패
새 Azure Databricks 작업 영역은 레거시 DBFS 탑재를 지원하지 않습니다.
팁 (조언)
대신 Unity 카탈로그 외부 위치 및 볼륨을 사용합니다. 데이터 세트 또는 공유 파일을 저장하려면 볼륨을 만듭니다.
CREATE VOLUME IF NOT EXISTS workspace.default.my_volume;
그런 다음 다음을 사용하여 파일에 액세스합니다.
# Write data
df.write.mode("overwrite").option("path", "/Volumes/workspace/default/my_volume/my_data").saveAsTable("my_table")
# Read data
df = spark.read.table("my_table")
/dbfs/에서 파일을 읽거나 쓸 수 없습니다.
Free Edition은 보안을 위해 DBFS 루트에 대한 직접 액세스를 제한합니다.
팁 (조언)
Unity 카탈로그 볼륨을 사용하여 데이터 세트 또는 공유 파일을 저장합니다.
# Create a volume (run once)
spark.sql("CREATE VOLUME IF NOT EXISTS workspace.default.my_data_volume")
# Write files
dbutils.fs.cp("file:/local/path/data.csv", "/Volumes/workspace/default/my_data_volume/")
# Read files
df = spark.read.csv("/Volumes/workspace/default/my_data_volume/data.csv", header=True, inferSchema=True)
기능 비교
다음 표에서는 Community Edition 및 Free Edition에서 사용할 수 있는 기능을 비교합니다.
| 특징 | 커뮤니티 에디션 | 무료 버전 |
|---|---|---|
| Notebooks | ✓ | ✓ |
| MLflow | ✓ | ✓ |
| Ingestion | ✓ | |
| Jobs | ✓ | |
| 파이프라인 | ✓ | |
| Dashboards | ✓ | |
| 지니 | ✓ | |
| 의미 체계 검색 | ✓ | |
| 모델 서빙 | ✓ | |
| 모델 평가 | ✓ | |
| Agents | ✓ | |
| Unity 카탈로그 | ✓ | |
| 클린룸 | ||
| Lakebase | ||
| 지식 도우미 , 감독자 에이전트 | ||
| 엔터프라이즈 관리자 기능 | ||
| 클래식 컴퓨팅 | ✓ | |
| 서버리스 컴퓨팅 | ✓ | |
| GPUs | 자체 환경 사용 |