데이터 원본에 연결
이 문서에서는 관리자와 다른 전원 사용자가 Azure Databricks와 데이터 원본 간의 연결을 구성하는 방법에 대한 권장 사항을 제공합니다. 외부 시스템에서 데이터를 읽을 수 있는 액세스 권한이 있는지 확인하려는 경우 먼저 작업 영역에서 액세스할 수 있는 데이터를 검토합니다. 데이터 검색을 참조하세요.
참고 항목
데이터 원본이 아닌 외부 서비스에 연결하는 방법에 대한 자세한 내용은 서비스 자격 증명을 사용하여 외부 클라우드 서비스에 대한 액세스 관리를 참조하세요.
Azure Databricks 계정을 클라우드 개체 스토리지, 관계형 데이터베이스 관리 시스템, 스트리밍 데이터 서비스 및 CRM과 같은 엔터프라이즈 플랫폼과 같은 데이터 원본에 연결할 수 있습니다. 연결을 구성하는 데 필요한 특정 권한은 데이터 원본, Azure Databricks 작업 영역의 사용 권한 구성 방법, 원본의 데이터와 상호 작용하는 데 필요한 권한, 데이터 거버넌스 모델 및 기본 설정 연결 방법에 따라 달라집니다.
대부분의 메서드는 시스템을 통합하는 데 필요한 권한을 구성하기 위해 데이터 원본 및 Azure Databricks 작업 영역 모두에서 상승된 권한이 필요합니다. 이러한 권한이 없는 사용자는 도움을 요청해야 합니다. 데이터 원본에 대한 액세스 요청을 참조 하세요.
개체 스토리지 연결 구성
클라우드 개체 스토리지는 대부분의 데이터를 Azure Databricks에 저장하기 위한 기초를 제공합니다. 클라우드 개체 스토리지 및 Azure Databricks가 데이터를 저장하는 위치에 대한 자세한 내용은 Azure Databricks에서 데이터를 쓰는 위치를 참조하세요.
Databricks는 Unity 카탈로그를 사용하여 클라우드 개체 스토리지에 대한 액세스를 구성하는 것이 좋습니다. Unity 카탈로그는 클라우드 개체 스토리지의 구조화된 데이터와 구조화되지 않은 데이터에 대한 데이터 거버넌스를 제공합니다. Unity 카탈로그를 사용하여 클라우드 개체 스토리지 및 서비스에 연결을 참조 하세요.
Unity 카탈로그를 사용하지 않는 고객은 레거시 메서드를 사용하여 연결을 구성해야 합니다. Azure Databricks에 대한 클라우드 개체 스토리지에 대한 액세스 구성을 참조 하세요.
클라우드 개체 스토리지에 대한 네트워킹을 구성하려면 네트워킹을 참조 하세요.
외부 데이터 시스템에 대한 연결 구성
Databricks는 필요에 따라 외부 데이터 시스템에 대한 연결을 구성하는 몇 가지 옵션을 권장합니다. 다음 표에서는 이러한 옵션에 대한 개략적인 개요를 제공합니다.
옵션 | 설명 |
---|---|
Lakehouse 운영 | 엔터프라이즈 데이터 시스템의 데이터에 대한 읽기 전용 액세스를 제공합니다. 연결은 카탈로그 또는 스키마 수준에서 Unity 카탈로그를 통해 구성되며 여러 테이블을 단일 구성과 동기화합니다. 레이크하우스 페더레이션이란?을 참조하세요. |
Partner Connect | 기술 파트너 솔루션을 활용하여 외부 데이터 원본에 연결하고 레이크하우스에 데이터 수집을 자동화합니다. 일부 솔루션에는 역방향 ETL 및 외부 시스템의 Lakehouse 데이터에 대한 직접 액세스도 포함됩니다. Databricks 파트너 연결이란? |
드라이버 | Azure Databricks에는 각 Databricks 런타임에 외부 데이터 시스템용 드라이버가 포함되어 있습니다. 필요에 따라 타사 드라이버를 설치하여 다른 시스템의 데이터에 액세스할 수 있습니다. 각 테이블에 대한 연결을 구성해야 합니다. 일부 드라이버에는 쓰기 액세스가 포함됩니다. 외부 시스템에 대한 연결을 참조 하세요. |
JDBC | 네이티브 JDBC 지원을 기반으로 하는 외부 시스템용 드라이버가 몇 가지 포함되어 있으며, JDBC 옵션은 다른 시스템에 대한 연결을 구성하기 위한 확장 가능한 옵션을 제공합니다. 각 테이블에 대한 연결을 구성해야 합니다. JDBC를 사용하여 데이터베이스 쿼리를 참조하세요. |
스트리밍 데이터 원본에 연결
Azure Databricks는 많은 스트리밍 데이터 시스템에 최적화된 커넥터를 제공합니다.
모든 스트리밍 데이터 원본의 경우 액세스를 제공하는 자격 증명을 생성하고 이러한 자격 증명을 Azure Databricks에 로드해야 합니다. 모든 구성 옵션 및 모든 액세스 모드에서 비밀을 사용할 수 있으므로 Databricks는 비밀을 사용하여 자격 증명을 저장하는 것이 좋습니다.
스트리밍 원본에 대한 모든 데이터 커넥터는 스트리밍 쿼리를 정의할 때 옵션을 사용하여 자격 증명 전달을 지원합니다. 스트리밍 데이터 원본 구성을 참조하세요.
데이터 원본에 대한 액세스 요청
대부분의 조직에서는 대부분의 사용자가 Azure Databricks 또는 외부 데이터 원본에 대해 데이터 연결을 구성할 수 있는 충분한 권한이 없습니다.
조직에서 이 페이지에서 연결된 문서에 설명된 패턴 중 하나를 사용하여 데이터 원본에 대한 액세스를 이미 구성했을 수 있습니다. 조직에 데이터에 대한 액세스를 요청하는 잘 정의된 프로세스가 있는 경우 Databricks는 해당 프로세스를 따르는 것이 좋습니다.
데이터 원본에 액세스하는 방법을 잘 모르는 경우 이 절차를 통해 다음을 수행할 수 있습니다.
- 카탈로그 탐색기를 사용하여 액세스할 수 있는 테이블 및 볼륨을 볼 수 있습니다. 카탈로그 탐색기란?을 참조하세요.
- 팀 동료 또는 관리자에게 액세스할 수 있는 데이터 원본에 대해 문의하세요.
- 대부분의 조직에서는 ID 공급자(예: Okta 또는 Microsoft Entra ID)에서 동기화된 그룹을 사용하여 작업 영역 사용자에 대한 권한을 관리합니다. 팀의 다른 구성원이 액세스해야 하는 데이터 원본에 액세스할 수 있는 경우 작업 영역 관리자가 액세스 권한을 부여할 올바른 그룹에 추가하도록 합니다.
- 동료가 특정 테이블, 볼륨 또는 데이터 원본을 구성한 경우 해당 개인에게 데이터에 대한 액세스 권한을 부여할 수 있는 권한이 있어야 합니다.
- 일부 조직에서는 컴퓨팅 클러스터 및 SQL 웨어하우스에 대한 설정을 통해 데이터 액세스 권한을 구성합니다.
- 데이터 원본에 대한 액세스는 컴퓨팅에 따라 달라질 수 있습니다.
- 컴퓨팅 탭에서 컴퓨팅 작성자를 볼 수 있습니다. 작성자에게 연락하여 액세스할 수 있어야 하는 데이터 원본에 대해 문의하세요.