Lakeflow Spark SDP(선언적 파이프라인)는 SQL 및 Python에서 일괄 처리 및 스트리밍 데이터 파이프라인을 만들기 위한 프레임워크입니다. Lakeflow SDP는 성능 최적화 Databricks 런타임에서 실행되는 동안 Apache Spark 선언적 파이프라인과 확장되고 상호 운용 가능합니다. 파이프라인의 일반적인 사용 사례로는 클라우드 스토리지(예: Amazon S3, Azure ADLS Gen2 및 Google Cloud Storage) 및 메시지 버스(예: Apache Kafka, Amazon Kinesis, Google Pub/Sub, Azure EventHub 및 Apache Pulsar)와 같은 원본에서 데이터 수집, 증분 일괄 처리 및 스트리밍 변환이 포함됩니다.
비고
Lakeflow Spark 선언적 파이프라인에는 프리미엄 계획이 필요합니다. 자세한 내용은 Databricks 계정 팀에 문의하세요.
이 섹션에서는 파이프라인 사용에 대한 자세한 정보를 제공합니다. 다음 항목은 시작하는 데 도움이 됩니다.
| 주제 | Description |
|---|---|
| Lakeflow Spark 선언적 파이프라인 개념 | 파이프라인, 흐름, 스트리밍 테이블 및 구체화된 뷰를 비롯한 SDP의 개략적인 개념에 대해 알아봅니다. |
| 자습서 | 튜토리얼을 따라 파이프라인을 사용해 보면서 실습 경험을 쌓을 수 있습니다. |
| 파이프라인 개발 | 데이터를 수집하고 변환하기 위한 흐름을 만드는 파이프라인을 개발하고 테스트하는 방법을 알아봅니다. |
| 파이프라인 구성 | 파이프라인을 예약하고 구성하는 방법을 알아봅니다. |
| 파이프라인 모니터링 | 파이프라인을 모니터링하고 파이프라인 쿼리 문제를 해결하는 방법을 알아봅니다. |
| 개발자 | 파이프라인을 개발할 때 Python 및 SQL을 사용하는 방법을 알아봅니다. |
| Databricks SQL의 파이프라인 | Databricks SQL에서 스트리밍 테이블 및 구체화된 뷰를 사용하는 방법에 대해 알아봅니다. |