Databricks를 사용하는 데이터 엔지니어링

Databricks는 데이터 엔지니어, 소프트웨어 개발자, SQL 개발자, 분석가 및 데이터 과학자가 다운스트림 분석, AI 및 운영 애플리케이션을 위한 고품질 데이터를 제공할 수 있도록 하는 엔드 투 엔드 데이터 엔지니어링 솔루션인 Lakeflow를 제공합니다. Lakeflow는 데이터의 수집, 변환 및 오케스트레이션을 위한 통합 솔루션이며 Lakeflow Connect, Lakeflow Spark 선언적 파이프라인, Lakeflow 디자이너 및 Lakeflow 작업을 포함합니다.

Lakeflow Connect

Lakeflow Connect는 인기 있는 엔터프라이즈 애플리케이션, 데이터베이스, 클라우드 스토리지, 메시지 버스 및 로컬 파일에 대한 커넥터를 사용하여 데이터 수집을 간소화합니다. Lakeflow Connect참조하세요.

특징	설명
관리형 커넥터	관리형 커넥터는 기본 파이프라인 API 및 인프라를 사용할 필요 없이 운영 오버헤드를 최소화하는 간단한 UI 및 구성 기반 수집 서비스를 제공합니다.
표준 커넥터	표준 커넥터는 파이프라인 또는 다른 쿼리 내에서 광범위한 데이터 원본의 데이터에 액세스할 수 있는 기능을 제공합니다.

Lakeflow Spark 선언적 파이프라인 (SDP)

Lakeflow Spark 선언적 파이프라인 또는 SDP는 효율적인 일괄 처리 및 스트리밍 데이터 파이프라인을 빌드하고 관리하는 복잡성을 줄이는 선언적 프레임워크입니다. Lakeflow SDP는 성능 최적화 Databricks 런타임에서 실행되는 동안 Apache Spark 선언적 파이프라인과 확장되고 상호 운용 가능합니다. SDP는 흐름, 싱크, 스트리밍 테이블 및 구체화된 뷰의 실행을 파이프라인으로 캡슐화하고 실행하여 자동으로 오케스트레이션합니다. Lakeflow Spark 선언적 파이프라인을 참조하세요.

특징	설명
흐름	플로우는 파이프라인에서 데이터를 처리합니다. 흐름 API는 Apache Spark 및 구조적 스트리밍과 동일한 DataFrame API를 사용합니다. 흐름은 스트리밍 의미 체계를 사용하여 Kafka 토픽과 같은 스트리밍 테이블 및 싱크에 쓰거나 일괄 처리 의미 체계를 사용하여 구체화된 뷰에 쓸 수 있습니다.
스트리밍 테이블	스트리밍 테이블은 스트리밍 또는 증분 데이터 처리를 추가로 지원하는 델타 테이블입니다. 파이프라인에서 하나 이상의 흐름에 대한 대상 역할을 합니다.
구체화된 뷰	구체화된 뷰는 더 빠른 액세스를 위해 캐시된 결과가 있는 보기입니다. 구체화된 뷰는 파이프라인의 목표로 작동합니다.
싱크대	파이프라인은 외부 데이터 싱크를 대상으로 지원합니다. 이러한 싱크에는 Apache Kafka 또는 Azure Event Hubs와 같은 이벤트 스트리밍 서비스, Unity 카탈로그에서 관리하는 외부 테이블 또는 Python에 정의된 사용자 지정 싱크가 포함될 수 있습니다.

Lakeflow 디자이너

Lakeflow Designer는 Azure Databricks 시각적 데이터 준비 도구입니다. 끌어서 놓기 캔버스 또는 자연어 프롬프트를 사용하여 변환 워크플로를 빌드하고 탐색합니다. 모든 디자이너 워크플로는 Unity 카탈로그가 관리하는 프로덕션 준비 코드로 지원됩니다. Lakeflow 디자이너를 참조하세요.

특징	설명
시각적 데이터 준비	끌어서 놓기 캔버스를 사용하여 데이터 변환 워크플로를 빌드합니다.
데이터 수집	Azure Databricks 통해 액세스할 수 있는 모든 데이터를 Lakeflow Designer의 시각적 데이터 준비로 가져옵니다.
기본 제공 연산자	데이터 필터링, 집계, 조인 및 재구성에 기본 제공 연산자를 사용합니다.
자연어를 사용한 업데이트	Genie Code에서 자연어 프롬프트를 사용하여 변환을 생성하거나 업데이트합니다.

Lakeflow 일자리

Lakeflow 작업은 모든 데이터 및 AI 워크로드에 대한 안정적인 오케스트레이션 및 프로덕션 모니터링을 제공합니다. 작업은 Notebook, 파이프라인, 관리되는 커넥터, SQL 쿼리, 기계 학습 학습 및 모델 배포 및 유추를 실행하는 하나 이상의 작업으로 구성됩니다. 작업은 또한 if / else 문을 사용한 분기 및 for each 문을 사용한 반복과 같은 사용자 지정 제어 흐름 로직을 지원합니다. Lakeflow 작업을 참조하세요.

특징	설명
직업	작업은 오케스트레이션의 기본 리소스입니다. 예약된 기준으로 수행하려는 프로세스를 나타냅니다.
작업	작업 내의 특정 작업 단위입니다. 작업 내에서 수행할 수 있는 다양한 옵션을 제공하는 다양한 작업 유형이 있습니다.
작업의 제어 흐름	제어 흐름 태스크를 사용하면 다른 태스크를 실행할지 또는 실행할 작업의 순서를 제어할 수 있습니다.

Apache Spark용 Databricks 런타임.

Databricks 런타임은 일괄 처리 및 스트리밍을 포함하여 Spark 워크로드를 실행하기 위한 안정적이고 성능 최적화된 컴퓨팅 환경입니다. Databricks 런타임은 고성능 Databricks 네이티브 벡터화된 쿼리 엔진인 Photon과 자동 크기 조정 같은 다양한 인프라 최적화를 제공합니다. Spark 프로그램을 Notebook, JAR 또는 Python 휠로 빌드하여 Databricks 런타임에서 Spark 및 구조적 스트리밍 워크로드를 실행할 수 있습니다. Apache Spark용 Databricks 런타임을 참조하세요.

특징	설명
Databricks의 Apache Spark	Spark는 Databricks Data Intelligence 플랫폼의 핵심입니다.
구조적 스트리밍	구조적 스트리밍은 스트리밍 데이터에 대한 Spark 근 실시간 처리 엔진입니다.

델타 라이브 테이블(DLT)은 어떻게 되었나요?

DLT(Delta Live Tables)에 익숙한 경우 DLT(Delta Live Tables)의 변경 내용을 참조하세요.

추가 리소스

데이터 엔지니어링 개념은 Azure Databricks의 데이터 엔지니어링 개념을 설명합니다.
Delta Lake 는 Azure Databricks의 레이크하우스에 있는 테이블의 기초를 제공하는 최적화된 스토리지 계층입니다.
데이터 엔지니어링 모범 사례는 Azure Databricks의 데이터 엔지니어링 모범 사례에 대해 설명합니다.
Databricks Notebook은 공동 작업 및 개발을 위한 인기 있는 도구입니다.
Databricks SQL 은 Azure Databricks에서 SQL 쿼리 및 BI 도구를 사용하는 방법에 대해 설명합니다.
machine learning on Azure Databricks 기계 학습 솔루션 설계에 대해 설명합니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-05-30