Databricks 레이크하우스로 데이터 수집

아티클
03/01/2024

Azure Databricks는 데이터를 Delta Lake에서 지원하는 레이크하우스로 수집할 수 있도록 하는 다양한 방법을 제공합니다. Databricks에서는 클라우드 개체 스토리지에서 데이터를 증분식으로 수집할 때 자동 로더를 사용할 것을 권장합니다. 데이터 추가 UI는 로컬 파일을 빠르게 업로드하거나 외부 데이터 원본에 연결하는 다양한 옵션을 제공합니다.

첫 번째 ETL 워크로드 실행

Azure Databricks에서 자동 로더를 사용하지 않은 경우 자습서로 시작합니다. Azure Databricks에서 첫 번째 ETL 워크로드 실행을 참조하세요.

자동 로더

자동 로더는 추가 설정 없이 클라우드 스토리지에 도착하는 새로운 데이터 파일을 점진적이고 효율적으로 처리합니다. 자동 로더는 cloudFiles라는 구조적 스트리밍 원본을 제공합니다. 클라우드 파일 스토리지의 입력 디렉터리 경로가 주어지면 cloudFiles 원본은 새 파일이 도착하면 자동으로 처리하며 해당 디렉터리의 기존 파일도 처리할 수 있습니다.

Delta Live Tables 및 자동 로더를 사용하여 ETL 자동화

자동 로더 및 Delta Live Tables를 사용하여 확장 가능한 증분 수집 인프라를 간단하게 배포할 수 있습니다. Delta Live Tables는 Notebook의 표준 대화형 실행을 사용하지 않으며, 그 대신 프로덕션에 사용할 준비가 된 인프라 배포를 강조합니다.

로컬 데이터 파일 업로드 또는 외부 데이터 원본 연결

로컬 데이터 파일을 안전하게 업로드하거나 외부 원본에서 데이터를 수집하여 테이블을 만들 수 있습니다. 데이터 추가 UI를 사용하여 데이터 로드를 참조하세요.

타사 도구를 사용하여 Azure Databricks로 데이터 수집

Azure Databricks는 Azure Databricks에 데이터를 수집할 수 있는 기술 파트너 통합의 유효성을 검사합니다. 이러한 통합을 통해 다양한 원본에서 Azure Databricks로의 낮은 코드, 확장 가능한 데이터 수집이 가능합니다. 기술 파트너를 참조하세요. 일부 기술 파트너는 타사 도구를 레이크하우스 데이터에 쉽게 연결하는 UI를 제공하는 Databricks 파트너 커넥트 있습니다.

COPY INTO

COPY INTO 를 사용하면 SQL 사용자가 클라우드 개체 스토리지에서 델타 테이블로 데이터를 멱등하게 증분 방식으로 수집할 수 있습니다. 이는 Databricks SQL, Notebook 및 Databricks 작업에서 사용할 수 있습니다.

COPY INTO를 사용하는 경우와 자동 로더를 사용하는 경우

다음은 자동 로더와 COPY INTO다음 중에서 선택할 때 고려해야 할 몇 가지 사항입니다.

수천 개의 파일을 수집하려는 경우 COPY INTO를 사용할 수 있습니다. 시간이 지남에 따라 수백만 개 이상의 파일이 예상되는 경우 자동 로더를 사용합니다. 자동 로더는 파일을 검색하는 데 필요한 COPY INTO 총 작업이 더 적고 처리를 여러 일괄 처리로 분할할 수 있습니다. 즉, 자동 로더는 비용이 저렴하고 규모가 더 효율적입니다.
데이터 스키마가 자주 발전할 경우 자동 로더는 스키마 유추 및 발전에 대한 더 나은 기본 요소를 제공합니다. 자세한 내용은 자동 로더의 스키마 유추 및 진화 구성을 참조하세요.
다시 업로드된 파일의 하위 집합을 로드하는 것이 좀 더 쉽게 관리할 COPY INTO수 있습니다. 자동 로더를 사용하면 파일의 일부 하위 집합을 다시 처리하기가 더 어렵습니다. 그러나 자동 로더 스트림이 동시에 실행되는 동안 파일의 하위 집합을 다시 로드하는 데 사용할 COPY INTO 수 있습니다.
더욱 확장 가능하고 강력한 파일 수집 환경을 위해 자동 로더를 사용하면 SQL 사용자가 스트리밍 테이블을 활용할 수 있습니다. Databricks SQL에서 스트리밍 테이블을 사용하여 데이터 로드를 참조하세요.

자동 로더에 대한 간략한 개요 및 데모는 COPY INTO물론 다음 YouTube 비디오(2분)를 시청하세요.

데이터 수집 중에 캡처된 파일 메타데이터 검토

Apache Spark는 데이터 로드 중에 원본 파일에 대한 데이터를 자동으로 캡처합니다. Azure Databricks를 사용하면 파일 메타데이터 열을 사용하여 이 데이터에 액세스할 수 있습니다.

Azure Databricks에 스프레드시트 내보내기 업로드

파일 업로드 페이지에서 테이블 만들기 또는 수정을 사용하여 CSV, TSV 또는 JSON 파일을 업로드합니다. 파일 업로드를 사용하여 테이블 만들기 또는 수정을 참조하세요.

Azure Databricks로 데이터 애플리케이션 마이그레이션

단일 플랫폼의 여러 원본 시스템에서 데이터를 사용할 수 있도록 기존 데이터 애플리케이션을 Azure Databricks로 마이그레이션합니다. Azure Databricks로 데이터 애플리케이션 마이그레이션을 참조 하세요.