Azure Databricks로 데이터 애플리케이션 마이그레이션

이 문서에서는 기존 데이터 애플리케이션을 Azure Databricks로 마이그레이션하는 방법을 소개합니다. Azure Databricks는 단일 플랫폼에서 여러 원본 시스템의 데이터를 작업할 수 있는 통합된 접근 방식을 제공합니다.

플랫폼 기능에 대한 개요는 Azure Databricks란?을 참조하세요.

Databricks 런타임 버전 간 마이그레이션에 대한 자세한 내용은 Databricks 런타임 마이그레이션 가이드를 참조 하세요.

Azure Databricks로 ETL 작업 마이그레이션

몇 단계만 수행하면 온-프레미스 또는 클라우드 네이티브 구현에서 Azure Databricks로 데이터를 추출, 변환 및 로드하는 데 사용되는 Apache Spark 작업을 마이그레이션할 수 있습니다. Azure Databricks에 대해 기존 Apache Spark 코드 조정을 참조하세요.

Azure Databricks는 미리 구성된 오픈 소스 통합, 파트너 통합 및 엔터프라이즈 제품 제품을 사용하여 Spark SQL의 기능을 확장합니다. ETL 워크로드가 SQL 또는 Hive로 작성된 경우 최소한의 리팩터링만으로 Azure Databricks로 마이그레이션할 수 있습니다. Azure Databricks SQL 제품에 대해 자세히 알아보세요.

다양한 원본 시스템에서 Azure Databricks로 마이그레이션하는 방법에 대한 구체적인 지침은 ETL 파이프라인을 Azure Databricks로 마이그레이션을 참조하세요.

엔터프라이즈 데이터 웨어하우스를 레이크하우스로 바꾸기

Azure Databricks는 레이크하우스에 저장된 데이터를 중심으로 워크로드가 정렬될 때 최적의 가치와 성능을 제공합니다. 많은 엔터프라이즈 데이터 스택에는 데이터 레이크와 엔터프라이즈 데이터 웨어하우스가 모두 포함되며, 조직은 이러한 시스템과 데이터를 동기화된 상태로 유지하기 위해 복잡한 ETL 워크플로를 만듭니다. Lakehouse를 사용하면 일반적으로 별도의 데이터 웨어하우스를 사용하는 쿼리 및 시스템에서 데이터 레이크에 저장된 동일한 데이터를 사용할 수 있습니다. 레이크하우스에 대한 자세한 내용은 데이터 레이크하우스란?을 참조하세요. Databricks의 데이터 웨어하우징에 대한 자세한 내용은 Azure Databricks의 데이터 웨어하우징이란?을 참조하세요.

엔터프라이즈 데이터 웨어하우스에서 Lakehouse로 마이그레이션하려면 일반적으로 데이터 아키텍처 및 워크플로의 복잡성을 줄이는 것이 포함되지만, 이 작업을 완료하는 동안 유의해야 할 몇 가지 주의 사항과 모범 사례가 있습니다. Databricks 레이크하우스로 데이터 웨어하우스 마이그레이션을 참조하세요.

ML, 데이터 과학 및 분석 워크로드 통합

레이크하우스는 테이블 쿼리 또는 파일 경로를 통해 클라우드 기반 데이터 파일에 최적화된 액세스를 제공하므로 단일 데이터 복사본에서 ML, 데이터 과학 및 분석을 수행할 수 있습니다. Azure Databricks를 사용하면 오픈 소스 및 독점 도구의 워크로드를 쉽게 이동할 수 있으며, 분석가와 데이터 과학자가 사용하는 여러 오픈 소스 라이브러리를 최신 업데이트로 유지할 수 있습니다.

Jupyter Notebook의 Pandas 워크로드는 Databricks Git 폴더를 사용하여 동기화하고 실행할 수 있습니다. Azure Databricks는 모든 Databricks 런타임 버전에서 pandas에 대한 기본 지원을 제공하고, Machine Learning용 Databricks Runtime에서 널리 사용되는 많은 ML 및 딥 러닝 라이브러리를 구성합니다. Git 폴더의 Git 및 작업 영역 파일을 사용하여 로컬 워크로드를 동기화하는 경우 로컬 환경에 있는 데이터 및 사용자 지정 libaries에 대해 동일한 상대 경로를 사용할 수 있습니다.

참고 항목

기본적으로 Azure Databricks는 Databricks Git 폴더와 동기화된 Jupyter Notebook에 대한 확장을 기본 .ipynb 있지만 UI를 사용하여 가져올 때 Jupyter Notebook을 Databricks Notebook으로 자동으로 변환합니다. Databricks Notebook은 .py 확장명으로 저장되므로 Git 리포지토리의 Jupyter Notebook과 공존할 수 있습니다.