다음을 통해 공유


Lakeflow Spark 선언적 파이프라인

Lakeflow Spark SDP(선언적 파이프라인)는 SQL 및 Python에서 일괄 처리 및 스트리밍 데이터 파이프라인을 만들기 위한 프레임워크입니다. Lakeflow SDP는 성능 최적화 Databricks 런타임에서 실행되는 동안 Apache Spark 선언적 파이프라인과 확장되고 상호 운용 가능합니다. 파이프라인의 일반적인 사용 사례로는 클라우드 스토리지(예: Amazon S3, Azure ADLS Gen2 및 Google Cloud Storage) 및 메시지 버스(예: Apache Kafka, Amazon Kinesis, Google Pub/Sub, Azure EventHub 및 Apache Pulsar)와 같은 원본에서 데이터 수집, 증분 일괄 처리 및 스트리밍 변환이 포함됩니다.

비고

Lakeflow Spark 선언적 파이프라인에는 프리미엄 계획이 필요합니다. 자세한 내용은 Databricks 계정 팀에 문의하세요.

이 섹션에서는 파이프라인 사용에 대한 자세한 정보를 제공합니다. 다음 항목은 시작하는 데 도움이 됩니다.

주제 Description
Lakeflow Spark 선언적 파이프라인 개념 파이프라인, 흐름, 스트리밍 테이블 및 구체화된 뷰를 비롯한 SDP의 개략적인 개념에 대해 알아봅니다.
자습서 튜토리얼을 따라 파이프라인을 사용해 보면서 실습 경험을 쌓을 수 있습니다.
파이프라인 개발 데이터를 수집하고 변환하기 위한 흐름을 만드는 파이프라인을 개발하고 테스트하는 방법을 알아봅니다.
파이프라인 구성 파이프라인을 예약하고 구성하는 방법을 알아봅니다.
파이프라인 모니터링 파이프라인을 모니터링하고 파이프라인 쿼리 문제를 해결하는 방법을 알아봅니다.
개발자 파이프라인을 개발할 때 Python 및 SQL을 사용하는 방법을 알아봅니다.
Databricks SQL의 파이프라인 Databricks SQL에서 스트리밍 테이블 및 구체화된 뷰를 사용하는 방법에 대해 알아봅니다.

추가 정보