Databricks는 데이터 엔지니어, 소프트웨어 개발자, SQL 개발자, 분석가 및 데이터 과학자가 다운스트림 분석, AI 및 운영 애플리케이션을 위한 고품질 데이터를 제공할 수 있도록 하는 엔드 투 엔드 데이터 엔지니어링 솔루션을 제공합니다.
다음 이미지는 작업, Lakeflow Connect, DLT 및 Databricks 런타임을 비롯한 Azure Databricks 데이터 엔지니어링 시스템의 아키텍처를 보여 줍니다.
자세한 내용은 다음 섹션을 참조하십시오.
특징 | 설명 |
---|---|
Lakeflow Connect | 인기 있는 엔터프라이즈 애플리케이션, 데이터베이스, 클라우드 스토리지, 메시지 버스 및 로컬 파일에 대한 커넥터를 사용하여 데이터 수집을 간소화합니다. 이러한 커넥터의 하위 집합은 관리되는 커넥터로 사용할 수 있습니다. 관리형 커넥터는 기본 DLT API 및 인프라를 사용할 필요 없이 운영 오버헤드를 최소화하는 간단한 UI 및 구성 기반 수집 서비스를 제공합니다. 자세한 내용은 다음을 참조하세요. |
DLT | 효율적인 일괄 처리 및 스트리밍 데이터 파이프라인을 빌드하고 관리하는 복잡성을 줄이는 선언적 프레임워크입니다. DLT는 성능 최적화 Databricks 런타임에서 실행되며 DLT 흐름 API는 Apache Spark 및 구조적 스트리밍과 동일한 DataFrame API를 사용합니다. 흐름은 스트리밍 의미 체계를 사용하여 Kafka 토픽과 같은 스트리밍 테이블 및 싱크에 쓰거나 일괄 처리 의미 체계를 사용하여 구체화된 뷰에 쓸 수 있습니다. 또한 DLT는 흐름을 캡슐화하고 파이프라인으로 실행하여 흐름, 싱크, 스트리밍 테이블 및 구체화된 뷰의 실행을 자동으로 오케스트레이션합니다. 자세한 내용은 다음을 참조하세요. |
직업 | 모든 데이터 및 AI 워크로드에 대한 안정적인 오케스트레이션 및 프로덕션 모니터링을 제공합니다. 작업은 Notebook, 파이프라인, 관리되는 커넥터, SQL 쿼리, 기계 학습 학습 및 모델 배포 및 유추를 실행하는 하나 이상의 작업으로 구성됩니다. 작업은 또한 if / else 문을 사용한 분기 및 for each 문을 사용한 반복과 같은 사용자 지정 제어 흐름 로직을 지원합니다. 자세한 내용은 다음을 참조하세요. |
Apache Spark용 Databricks 런타임 | 일괄 처리 및 스트리밍을 포함하여 Spark 워크로드를 실행하기 위한 안정적이고 성능 최적화된 컴퓨팅 환경입니다. Databricks 런타임은 고성능 Databricks 네이티브 벡터화된 쿼리 엔진인 Photon과 자동 크기 조정 같은 다양한 인프라 최적화를 제공합니다. Spark 프로그램을 Notebook, JAR 또는 Python 휠로 빌드하여 Databricks 런타임에서 Spark 및 구조적 스트리밍 워크로드를 실행할 수 있습니다. 자세한 내용은 다음을 참조하세요. |
추가 리소스
- 데이터 엔지니어링 개념은 Azure Databricks의 데이터 엔지니어링 개념을 설명합니다.
- Delta Lake 는 Azure Databricks의 레이크하우스에 있는 테이블의 기초를 제공하는 최적화된 스토리지 계층입니다.
- 데이터 엔지니어링 모범 사례는 Azure Databricks의 데이터 엔지니어링 모범 사례에 대해 설명합니다.
- Databricks Notebook은 공동 작업 및 개발을 위한 인기 있는 도구입니다.
- Databricks SQL 은 Azure Databricks에서 SQL 쿼리 및 BI 도구를 사용하는 방법에 대해 설명합니다.
- Databricks Mosaic AI 는 기계 학습 솔루션 설계를 설명합니다.