Azure Databricks란?
Azure Databricks Lakehouse 플랫폼은 엔터프라이즈급 데이터 솔루션을 대규모로 빌드, 배포, 공유 및 유지 관리할 수 있는 통합 도구 세트를 제공합니다. Azure Databricks는 클라우드 계정의 클라우드 스토리지 및 보안과 통합되며, 사용자를 대신하여 클라우드 인프라를 관리하고 배포합니다.
오픈 소스와 관리형 통합
Databricks는 오픈 소스 커뮤니티에 많은 노력을 기울이고 있습니다. Databricks는 Databricks Runtime 릴리스의 오픈 소스 통합 업데이트를 관리합니다. 다음 기술은 Databricks 직원이 설립한 오픈 소스 프로젝트입니다.
Azure Databricks는 다음과 같이 최적화된 성능과 사용 편의성을 추가하기 위해 이러한 기술을 통합하고 확장하는 여러 독점적 도구를 유지 관리합니다.
Azure Databricks는 Azure에서 어떻게 작동하나요?
Azure Databricks 플랫폼 아키텍처는 두 가지 주요 부분으로 구성되는데, 하나는 Azure Databricks에서 플랫폼 및 서비스를 배포, 구성, 관리하는 데 사용하는 인프라이고 다른 하나는 Azure Databricks와 회사에서 공동으로 관리하는 고객 소유 인프라입니다.
많은 엔터프라이즈 데이터베이스 회사와 달리 Azure Databricks는 플랫폼을 사용하려면 데이터를 독점적 스토리지 시스템으로 마이그레이션하도록 강제하지 않습니다. 대신 Azure Databricks 플랫폼과 클라우드 계정 간에 보안 통합을 구성하여 Azure Databricks 작업 영역을 구성합니다. 그러면 Azure Databricks가 계정의 클라우드 리소스를 사용하여 임시 컴퓨팅 클러스터를 배포하고, 데이터를 처리하여 사용자가 제어하는 개체 스토리지 및 기타 통합 서비스에 저장합니다.
Unity 카탈로그는 이 관계를 더욱 확장하므로, Azure Databricks 내에서 친숙한 SQL 구문을 사용하여 데이터에 액세스할 수 있는 권한을 관리할 수 있습니다.
Azure Databricks는 전 세계에서 가장 크고 가장 보안을 중요시하는 회사의 보안 및 네트워킹 요구 사항을 충족하는 작업 영역을 배포했습니다. Azure Databricks를 사용하면 새 사용자가 플랫폼에서 쉽게 시작할 수 있고 최종 사용자의 클라우드 인프라 작업에 대한 부담과 걱정을 해소하면서도 숙련된 데이터, 운영 및 보안 팀이 요구하는 사용자 지정과 제어가 제한되지 않습니다.
Azure Databricks는 어디에 사용되나요?
우리 고객은 Azure Databricks를 사용하여 BI에서 기계 학습에 이르는 솔루션을 통해 데이터 세트를 처리, 저장, 정리, 공유, 분석, 모델링하고 수익을 창출합니다. Azure Databricks 플랫폼을 사용하여 데이터 가상 사용자를 아우르는 여러 애플리케이션을 빌드할 수 있습니다. 레이크하우스를 완전히 수용하는 고객은 통합 플랫폼을 활용하여 조직 전체에서 혁신과 인사이트를 제공하는 데이터 엔지니어링 워크플로, 기계 학습 모델 및 분석 대시보드를 빌드하고 배포합니다.
Azure Databricks 작업 영역은 다음과 같은 도구를 포함하여 여러 핵심 데이터 작업에 대한 사용자 인터페이스를 제공합니다.
- 대화형 Notebook
- 워크플로 스케줄러 및 관리자
- SQL 편집기 및 대시보드
- 데이터 수집 및 거버넌스
- 데이터 검색, 주석 및 탐색
- 컴퓨팅 관리
- ML(기계 학습) 실험 추적
- ML 모델 서비스 제공
- 기능 저장소
- Git을 사용한 원본 제어
작업 영역 UI 외에도 다음 도구를 사용하여 프로그래밍 방식으로 Azure Databricks와 상호 작용할 수 있습니다.
- REST API
- CLI
- Terraform
Azure Databricks의 일반적인 사용 사례는 무엇인가요?
Azure Databricks의 사용 사례는 플랫폼에서 처리되는 데이터 및 작업의 핵심 부분으로 데이터를 사용하는 직원의 많은 가상 사용자만큼 다양합니다. 다음 사용 사례는 조직 전체의 사용자가 Azure Databricks를 활용하여 중요한 비즈니스 기능 및 의사 결정을 이끄는 데이터를 처리, 저장 및 분석하는 데 필수적인 작업을 수행하는 방법을 집중적으로 조명합니다.
엔터프라이즈 데이터 레이크하우스 빌드
데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 결합하여 엔터프라이즈 데이터 솔루션을 가속화, 단순화 및 통합합니다. 데이터 엔지니어, 데이터 과학자, 분석가 및 프로덕션 시스템은 모두 데이터 레이크하우스를 신뢰할 수 있는 단일 정보 소스로 활용하여 일관적인 데이터에 적시에 액세스하고 많은 분산 데이터 시스템을 빌드, 유지 관리 및 동기화하는 복잡성을 줄입니다. Databricks Lakehouse란?을 참조하세요.
ETL 및 데이터 엔지니어링
대시보드를 생성하든 AI 애플리케이션을 구동하든, 데이터 엔지니어링은 데이터를 사용 가능하고 깔끔하게 만들며 효율적으로 검색하고 사용할 수 있는 데이터 모델에 저장함으로써 데이터 중심 회사를 위한 백본을 제공합니다. Azure Databricks는 Apache Spark의 강력한 기능을 Delta Lake 및 사용자 지정 도구와 결합하여 타의 추종을 불허하는 ETL(추출, 변환, 로드) 환경을 제공합니다. SQL, Python 및 Scala를 사용하여 ETL 논리를 작성한 후 클릭 몇 번으로 예약된 작업 배포를 오케스트레이션할 수 있습니다.
Delta Live Tables는 데이터 세트 간의 종속성을 지능적으로 관리하고 프로덕션 인프라를 자동으로 배포 및 스케일링하여 사양에 따라 데이터를 적시에 정확하게 전달함으로써 ETL을 더욱 간소화합니다.
Azure Databricks는 클라우드 개체 스토리지 및 데이터 레이크의 데이터를 데이터 레이크로 점진적으로, 멱등적으로 로드하는 효율적이고 확장 가능한 도구인 자동 로더를 포함하여 데이터 수집을 위한 다양한 사용자 지정 도구를 제공합니다.
기계 학습, AI 및 데이터 과학
Azure Databricks 기계 학습은 MLflow 및 Machine Learning용 Databricks Runtime을 포함하여 데이터 과학자 및 ML 엔지니어의 요구 사항에 맞는 도구 모음을 통해 플랫폼의 핵심 기능을 확장합니다. Databricks Machine Learning 가이드를 참조하세요.
데이터 웨어하우징, 분석 및 BI
Azure Databricks는 사용자 친화적인 UI를 비용 효율적인 컴퓨팅 리소스 및 무한히 확장 가능하고 저렴한 스토리지와 결합하여 분석 쿼리를 실행할 수 있는 강력한 플랫폼을 제공합니다. 관리자가 확장 가능한 컴퓨팅 클러스터를 SQL 웨어하우스로 구성하면 최종 사용자가 클라우드에서 작업의 복잡성을 걱정하지 않고 쿼리를 실행할 수 있습니다. SQL 사용자는 SQL 쿼리 편집기 또는 Notebook을 사용하여 레이크하우스의 데이터를 쿼리할 수 있습니다. Notebook은 SQL 외에도 Python, R 및 Scala를 지원하며, 사용자가 markdown으로 작성된 링크, 이미지 및 주석과 함께 대시보드에서 사용할 수 있는 동일한 시각화를 포함할 수 있습니다.
데이터 거버넌스 및 보안 데이터 공유
Unity 카탈로그는 데이터 레이크하우스를 위한 통합 데이터 거버넌스 모델을 제공합니다. 클라우드 관리자는 Unity 카탈로그에 대한 대략적인 액세스 제어 권한을 구성하고 통합합니다. 그 후 Azure Databricks 관리자는 팀과 개인의 권한을 관리할 수 있습니다. 권한은 사용자에게 친숙한 UI 또는 SQL 구문을 통해 ACL(액세스 제어 목록)로 관리되므로, 데이터베이스 관리자가 클라우드 네이티브 IAM(ID 및 액세스 관리) 및 네트워킹을 스케일링할 필요 없이 데이터 액세스를 보다 쉽게 보호할 수 있습니다.
Unity 카탈로그를 사용하면 클라우드에서 보안 분석을 간단하게 실행할 수 있으며, 책임을 분담하여 플랫폼 관리자와 최종 사용자 모두에게 필요한 재숙련 또는 업스킬링을 제한할 수 있습니다. Unity 카탈로그란?을 참조하세요.
레이크하우스를 사용하면 테이블 또는 보기에 대한 쿼리 액세스 권한을 부여하는 간단한 방법으로 조직 내에서 데이터를 공유할 수 있습니다. 보안 환경 외부에서 공유할 수 있도록 Unity 카탈로그는 관리형 버전의 Delta Sharing을 제공합니다.
DevOps, CI/CD 및 작업 오케스트레이션
ETL 파이프라인, ML 모델 및 분석 대시보드는 각각 개발 수명 주기에 따라 고유한 과제가 있습니다. Azure Databricks를 사용하면 모든 사용자가 단일 데이터 원본을 활용할 수 있으므로 중복 작업 및 비동기 보고가 줄어듭니다. 또한 코드 및 프로덕션 리소스의 버전 관리, 자동화, 예약, 배포를 위한 일반적인 도구 모음을 제공하므로 모니터링, 오케스트레이션 및 작업 오버헤드를 간소화할 수 있습니다. 워크플로는 Azure Databricks Notebook, SQL 쿼리 및 기타 임의 코드를 예약합니다. 리포지토리를 사용하면 Azure Databricks 프로젝트를 인기 있는 여러 git 공급자와 동기화할 수 있습니다. 도구에 대한 전체 개요는 개발자 도구 및 지침을 참조하세요.
실시간 및 스트리밍 분석
Azure Databricks는 Apache Spark 구조적 스트리밍을 활용하여 스트리밍 데이터 및 증분 데이터 변경을 수행합니다. 구조적 스트리밍은 Delta Lake와 긴밀하게 통합되며, 이러한 기술은 Delta Live Tables와 자동 로더의 기반을 제공합니다. Apache Spark 구조적 스트리밍이란?을 참조하세요.