Azure Databricks의 모든 델타 항목은 무엇인가요?

이 문서에서는 Azure Databricks에서 Delta라는 공동 브랜드 기술을 소개합니다. Delta는 Delta Lake 오픈 소스 프로젝트와 관련된 기술을 나타냅니다.

이 문서에서는 다음과 같은 답변을 제공합니다.

  • Azure Databricks의 델타 기술은 무엇인가요?
  • 역할은 무엇입니까? 또는 무엇을 위해 사용됩니까?
  • 서로 어떻게 관련되고 구별되는가?

델타 항목의 용도는 무엇인가요?

Delta는 Databricks 레이크하우스에 데이터와 테이블을 저장하기 위한 기초인 Delta Lake에서 도입된 용어입니다. Delta Lake는 ACID 트랜잭션 및 확장 가능한 메타데이터 처리를 위해 파일 기반 트랜잭션 로그를 사용하여 Parquet 데이터 파일을 확장하여 트랜잭션 실시간 및 일괄 처리 빅 데이터를 처리하기 위한 통합 데이터 관리 시스템으로 고안되었습니다.

Delta Lake: Lakehouse에 대한 OS 데이터 관리

Delta Lake 는 클라우드 스토리지에 저장된 데이터(AWS S3, Azure Storage 및 GCS)에 트랜잭션 스토리지 계층을 추가하여 데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층입니다. ACID 트랜잭션, 데이터 버전 관리 및 롤백 기능을 허용합니다. 이를 통해 일괄 처리 및 스트리밍 데이터를 통합된 방식으로 처리할 수 있습니다.

델타 테이블은 이 스토리지 계층 위에 빌드되고 테이블 추상화가 제공되므로 SQL 및 DataFrame API를 사용하여 대규모 구조화된 데이터로 쉽게 작업할 수 있습니다.

델타 테이블: 기본 데이터 테이블 아키텍처

델타 테이블은 Azure Databricks의 기본 데이터 테이블 형식이며 Delta Lake 오픈 소스 데이터 프레임워크의 기능입니다. 델타 테이블은 일반적으로 스트리밍 또는 대규모 일괄 처리를 통해 데이터를 수집하는 데이터 레이크에 사용됩니다.

참조

델타 라이브 테이블: 데이터 파이프라인

Delta Live Tables는 많은 델타 테이블 간의 데이터 흐름을 관리하므로 ETL 개발 및 관리에 대한 데이터 엔지니어의 작업을 간소화합니다. 파이프라인은 Delta Live Tables에 대한 기본 실행 단위입니다. Delta Live Tables는 선언적 파이프라인 개발, 향상된 데이터 안정성 및 클라우드 규모 프로덕션 작업을 제공합니다. 사용자는 동일한 테이블에서 일괄 처리 및 스트리밍 작업을 모두 수행할 수 있으며 데이터를 쿼리에 즉시 사용할 수 있습니다. 사용자는 데이터에 대해 수행할 변환을 정의하고, Delta Live Tables는 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 관리합니다. 델타 라이브 테이블 향상된 자동 크기 조정은 뾰족하고 예측할 수 없는 스트리밍 워크로드를 처리할 수 있습니다.

Delta Live Tables 자습서참조하세요.

델타 테이블과 델타 라이브 테이블 비교

델타 테이블은 테이블에 데이터를 저장하는 방법인 반면 Delta Live Tables를 사용하면 이러한 테이블 간에 데이터가 선언적으로 흐르는 방식을 설명할 수 있습니다. Delta Live Tables는 여러 델타 테이블을 만들고 최신 상태로 유지하여 관리하는 선언적 프레임워크입니다. 간단히 말해서 델타 테이블은 데이터 테이블 아키텍처이고 Delta Live Tables는 데이터 파이프라인 프레임워크입니다.

델타: 오픈 소스 또는 독점?

Azure Databricks 플랫폼의 장점은 고객을 독점 도구로 잠그지 않는다는 것입니다. 대부분의 기술은 Azure Databricks가 기여하는 오픈 소스 프로젝트에 의해 구동됩니다.

델타 OSS 프로젝트는 다음과 같은 예입니다.

Delta Live Tables는 Azure Databricks의 독점 프레임워크입니다.

Azure Databricks의 다른 델타 항목은 무엇인가요?

다음은 해당 이름에 델타를 포함하는 다른 기능에 대한 설명입니다.

Delta Sharing

보안 데이터 공유를 위한 개방형 표준인 델타 공유 는 컴퓨팅 플랫폼에 관계없이 조직 간에 데이터 공유를 가능하게 합니다.

델타 엔진

Databricks에 포함된 Delta Lake 오픈 소스 기술을 사용하는 빅 데이터에 대한 쿼리 최적화 프로그램입니다. 델타 엔진은 계산을 데이터에 푸시하여 Spark SQL, Databricks SQL 및 DataFrame 작업의 성능을 최적화합니다.

Delta Lake 트랜잭션 로그(AKA DeltaLogs)

사용자가 테이블에 적용하는 모든 변경 내용과 Delta Lake가 원자성을 보장하는 메커니즘을 추적하는 단일 진실 소스입니다. GitHub에서 델타 트랜잭션 로그 프로토콜 을 참조하세요.

트랜잭션 로그는 가장 중요한 여러 기능을 통해 실행되는 공통 스레드이기 때문에 Delta Lake를 이해하는 데 핵심적인 요소입니다.

  • ACID 거래
  • 확장 가능한 메타데이터 처리
  • 시간 이동
  • 그리고 더 많은.