다음을 통해 공유


Databricks를 사용하는 데이터 엔지니어링

Databricks는 데이터 엔지니어, 소프트웨어 개발자, SQL 개발자, 분석가 및 데이터 과학자가 다운스트림 분석, AI 및 운영 애플리케이션을 위한 고품질 데이터를 제공할 수 있도록 하는 엔드 투 엔드 데이터 엔지니어링 솔루션을 제공합니다.

다음 이미지는 작업, Lakeflow Connect, DLT 및 Databricks 런타임을 비롯한 Azure Databricks 데이터 엔지니어링 시스템의 아키텍처를 보여 줍니다.

Databricks 데이터 엔지니어링 개요

자세한 내용은 다음 섹션을 참조하십시오.

특징 설명
Lakeflow Connect 인기 있는 엔터프라이즈 애플리케이션, 데이터베이스, 클라우드 스토리지, 메시지 버스 및 로컬 파일에 대한 커넥터를 사용하여 데이터 수집을 간소화합니다. 이러한 커넥터의 하위 집합은 관리되는 커넥터로 사용할 수 있습니다. 관리형 커넥터는 기본 DLT API 및 인프라를 사용할 필요 없이 운영 오버헤드를 최소화하는 간단한 UI 및 구성 기반 수집 서비스를 제공합니다.
자세한 내용은 다음을 참조하세요.
DLT 효율적인 일괄 처리 및 스트리밍 데이터 파이프라인을 빌드하고 관리하는 복잡성을 줄이는 선언적 프레임워크입니다. DLT는 성능 최적화 Databricks 런타임에서 실행되며 DLT 흐름 API는 Apache Spark 및 구조적 스트리밍과 동일한 DataFrame API를 사용합니다. 흐름은 스트리밍 의미 체계를 사용하여 Kafka 토픽과 같은 스트리밍 테이블 및 싱크에 쓰거나 일괄 처리 의미 체계를 사용하여 구체화된 뷰에 쓸 수 있습니다. 또한 DLT는 흐름을 캡슐화하고 파이프라인으로 실행하여 흐름, 싱크, 스트리밍 테이블 및 구체화된 뷰의 실행을 자동으로 오케스트레이션합니다.
자세한 내용은 다음을 참조하세요.
직업 모든 데이터 및 AI 워크로드에 대한 안정적인 오케스트레이션 및 프로덕션 모니터링을 제공합니다. 작업은 Notebook, 파이프라인, 관리되는 커넥터, SQL 쿼리, 기계 학습 학습 및 모델 배포 및 유추를 실행하는 하나 이상의 작업으로 구성됩니다. 작업은 또한 if / else 문을 사용한 분기 및 for each 문을 사용한 반복과 같은 사용자 지정 제어 흐름 로직을 지원합니다.
자세한 내용은 다음을 참조하세요.
Apache Spark용 Databricks 런타임 일괄 처리 및 스트리밍을 포함하여 Spark 워크로드를 실행하기 위한 안정적이고 성능 최적화된 컴퓨팅 환경입니다. Databricks 런타임은 고성능 Databricks 네이티브 벡터화된 쿼리 엔진인 Photon과 자동 크기 조정 같은 다양한 인프라 최적화를 제공합니다. Spark 프로그램을 Notebook, JAR 또는 Python 휠로 빌드하여 Databricks 런타임에서 Spark 및 구조적 스트리밍 워크로드를 실행할 수 있습니다.
자세한 내용은 다음을 참조하세요.

추가 리소스