이 문서에서는 클라우드 개체 스토리지에서 증분 수집을 구성할 수 있는 방법을 나열합니다.
데이터 UI 추가
데이터 추가 UI를 사용하여 클라우드 개체 스토리지의 데이터에서 관리되는 테이블을 만드는 방법을 알아보려면 Unity 카탈로그 외부 위치를 사용하여 데이터 로드를 참조하세요.
Notebook 또는 SQL 편집기
이 섹션에서는 Notebook 또는 Databricks SQL 편집기를 사용하여 클라우드 개체 스토리지에서 증분 수집을 구성하는 옵션에 대해 설명합니다.
자동 로더
자동 로더는 추가 설정 없이 클라우드 스토리지에 도착하는 새로운 데이터 파일을 점진적이고 효율적으로 처리합니다. 자동 로더는 cloudFiles
라는 구조적 스트리밍 원본을 제공합니다. 클라우드 파일 스토리지의 입력 디렉터리 경로가 주어지면 cloudFiles
원본은 새 파일이 도착하면 자동으로 처리하며 해당 디렉터리의 기존 파일도 처리할 수 있습니다.
COPY INTO
COPY INTO을 사용하면 SQL 사용자가 클라우드 객체 스토리지에서 멱등적이고 증분 방식으로 데이터를 델타 테이블로 수집할 수 있습니다. Databricks SQL, Notebook 및 Lakeflow 작업에서 사용할 COPY INTO
수 있습니다.
COPY INTO 사용하는 경우 및 자동 로더를 사용하는 경우
다음은 자동 로더와 COPY INTO
다음 중에서 선택할 때 고려해야 할 몇 가지 사항입니다.
- 시간이 지남에 따라 수천 개의 파일을 처리하려면
COPY INTO
를 사용할 수 있습니다. 시간이 지남에 따라 수백만 개 이상의 파일이 예상되는 경우 자동 로더를 사용합니다. 자동 로더는COPY INTO
보다 파일을 검색하는 데 필요한 전체 작업의 수가 적으며, 처리 작업을 여러 배치로 나눌 수 있습니다. 즉, 자동 로더는 대규모로 운영할 때 비용이 더 저렴하고 효율성도 더 높습니다. - 데이터 스키마가 자주 발전하는 경우 자동 로더는 스키마 유추 및 진화와 관련하여 더 나은 기본 데이터 형식을 제공합니다. 자세한 내용은 자동 로더의 스키마 유추 및 진화 구성을 참조하세요.
-
COPY INTO
를 사용하여 다시 업로드된 파일의 하위 집합을 로드하는 것이 더 쉽게 관리될 수 있습니다. 자동 로더를 사용하면 선택한 파일 하위 집합을 다시 처리하는 것이 더 어렵습니다. 그러나 자동 로더 스트림이 동시에 실행되는 동안 파일의 하위 집합을 다시 로드하는 데 사용할COPY INTO
수 있습니다.
- 더욱 확장 가능하고 강력한 파일 수집 환경을 위해 자동 로더를 사용하면 SQL 사용자가 스트리밍 테이블을 활용할 수 있습니다. Databricks SQL에서 스트리밍 테이블 사용을 참조하세요.
자동 로더에 대한 간략한 개요 및 데모를 COPY INTO
보려면 다음 YouTube 비디오(2분)를 시청하세요.
Lakeflow 선언적 파이프라인 및 자동 로더를 사용하여 ETL 자동화
자동 로더 및 Lakeflow 선언적 파이프라인을 사용하여 확장 가능한 증분 수집 인프라의 배포를 간소화할 수 있습니다. Lakeflow 선언적 파이프라인은 Notebook에 있는 표준 대화형 실행을 사용하지 않고 프로덕션에 대비한 인프라 배포를 강조합니다.
타사 데이터 수집 도구
Databricks는 클라우드 개체 스토리지를 비롯한 다양한 원본에서 수집할 수 있는 기술 파트너 통합의 유효성을 검사합니다. 이러한 통합을 통해 다양한 원본에서 Azure Databricks로의 낮은 코드, 확장 가능한 데이터 수집이 가능합니다. 기술 파트너를 참조하세요. 일부 기술 파트너는 타사 도구를 레이크하우스 데이터에 쉽게 연결할 수 있는 UI를 제공하는 Databricks Partner Connect에 등장합니다.