다음을 통해 공유


스토리지 탐색 및 데이터 파일 찾기

이 문서에서는 카탈로그 탐색기를 사용하여 볼륨을 탐색하기 위한 UI 기반 지침을 포함하여 Unity 카탈로그 볼륨으로 관리되는 디렉터리 및 데이터 파일을 검색하고 탐색하는 데 중점을 둡니다. 이 문서에서는 볼륨 경로 및 클라우드 URI를 사용하여 클라우드 개체 스토리지의 데이터를 프로그래밍 방식으로 탐색하는 예제도 제공합니다.

Databricks는 볼륨을 사용하여 클라우드 개체 스토리지의 데이터에 대한 액세스를 관리하는 것이 좋습니다. 클라우드 개체 스토리지의 데이터에 연결하는 방법에 대한 자세한 내용은 데이터 원본에 대한 커넥트 참조하세요.

모든 위치에서 파일과 상호 작용하는 방법에 대한 전체 연습은 Azure Databricks의 파일 작업을 참조 하세요.

Important

작업 영역 UI에서 파일을 검색할 때 작업 영역 파일로 저장된 데이터 파일을 검색할 수 있습니다. Databricks는 주로 코드(예: 스크립트 및 라이브러리), init 스크립트 또는 구성 파일에 작업 영역 파일을 사용하는 것이 좋습니다. 작업 영역 파일로 저장된 데이터를 개발 및 QA 중 테스트와 같은 작업에 사용할 수 있는 작은 데이터 세트로 제한하는 것이 좋습니다. 작업 영역 파일이란?을 참조하세요.

볼륨 및 레거시 클라우드 개체 구성

볼륨을 사용하여 클라우드 개체 스토리지의 데이터에 대한 액세스를 관리하는 경우 볼륨 경로만 사용하여 데이터에 액세스할 수 있으며, 이러한 경로는 모든 Unity 카탈로그 사용 컴퓨팅에서 사용할 수 있습니다. 볼륨을 사용하여 Unity 카탈로그 테이블을 지원하는 데이터 파일을 등록할 수 없습니다. Databricks는 파일 경로 대신 테이블 이름을 사용하여 Unity 카탈로그 테이블로 등록된 구조적 데이터와 상호 작용하는 것이 좋습니다. Unity 카탈로그에서 관리하는 데이터에 대한 경로는 어떻게 작동합니까?를 참조하세요.

클라우드 개체 스토리지의 데이터에 대한 액세스를 구성하기 위해 레거시 방법을 사용하는 경우 Azure Databricks는 레거시 테이블 ACL 권한을 되돌리기. SQL 웨어하우스 또는 공유 액세스 모드로 구성된 컴퓨팅에서 클라우드 URI를 사용하여 데이터에 액세스하려는 사용자에게는 권한이 필요합니다 ANY FILE . Hive 메타스토어 테이블 액세스 제어(레거시)를 참조하세요.

Azure Databricks는 클라우드 개체 스토리지에 파일을 나열하기 위한 여러 API를 제공합니다. 이 문서의 대부분의 예제에서는 볼륨 사용에 중점을 줍니다. 볼륨 없이 구성된 개체 스토리지의 데이터와 상호 작용하는 예제는 URI를 사용하여 파일 나열을 참조 하세요.

볼륨 탐색

카탈로그 탐색기를 사용하여 볼륨의 데이터를 탐색하고 볼륨의 세부 정보를 검토할 수 있습니다. 읽을 수 있는 권한이 있는 볼륨만 볼 수 있으므로 이러한 방식으로 검색된 모든 데이터를 쿼리할 수 있습니다.

SQL을 사용하여 볼륨 및 해당 메타데이터를 탐색할 수 있습니다. 볼륨에 파일을 나열하려면 SQL, %fs 매직 명령 또는 Databricks 유틸리티를 사용할 수 있습니다. 볼륨의 데이터와 상호 작용할 때는 Unity 카탈로그에서 제공하는 경로를 사용합니다. 이 경로는 항상 다음과 같은 형식입니다.

/Volumes/catalog_name/schema_name/volume_name/path/to/data

볼륨 표시

Sql

다음 명령을 실행하여 지정된 스키마의 볼륨 목록을 확인합니다.

SHOW VOLUMES IN catalog_name.schema_name;

SHOW VOLUMES를 참조 하세요.

카탈로그 탐색기

카탈로그 탐색기를 사용하여 지정된 스키마에 볼륨을 표시하려면 다음을 수행합니다.

  1. 카탈로그 아이콘을Catalog icon 선택합니다.
  2. 카탈로그를 선택합니다.
  3. 스키마를 선택합니다.
  4. 볼륨을 클릭하여 스키마의 모든 볼륨을 확장합니다.

참고 항목

스키마 에 등록된 볼륨이 없으면 볼륨 옵션이 표시되지 않습니다. 대신 사용 가능한 테이블 목록이 표시됩니다.

볼륨 세부 정보 보기

Sql

다음 명령을 실행하여 볼륨을 설명합니다.

DESCRIBE VOLUME volume_name

설명 볼륨을 참조하세요.

카탈로그 탐색기

볼륨 이름을 클릭하고 세부 정보 탭을 선택하여 볼륨 세부 정보를 검토합니다.

볼륨의 파일 보기

Sql

다음 명령을 실행하여 볼륨의 파일을 나열합니다.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

카탈로그 탐색기

볼륨 이름을 클릭하고 세부 정보 탭을 선택하여 볼륨 세부 정보를 검토합니다.

%fs

다음 명령을 실행하여 볼륨의 파일을 나열합니다.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Databricks 유틸리티

다음 명령을 실행하여 볼륨의 파일을 나열합니다.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

URI를 사용하여 파일 나열

URI를 사용하여 볼륨 이외의 메서드로 구성된 클라우드 개체 스토리지를 쿼리할 수 있습니다. 클라우드 위치에 액세스하려면 권한이 있는 컴퓨팅에 연결해야 합니다. ANY FILE SQL 웨어하우스 및 공유 액세스 모드로 구성된 컴퓨팅에 대한 권한이 필요합니다.

참고 항목

볼륨으로 구성된 개체 스토리지에 대한 URI 액세스는 지원되지 않습니다. 카탈로그 탐색기를 사용하여 볼륨으로 구성되지 않은 개체 스토리지의 콘텐츠를 검토할 수 없습니다.

다음 예제에는 Azure Data Lake Storage Gen2, S3 및 GCS와 함께 저장된 데이터에 대한 예제 URI가 포함됩니다.

Sql

다음 명령을 실행하여 클라우드 개체 스토리지에 파일을 나열합니다.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

다음 명령을 실행하여 클라우드 개체 스토리지에 파일을 나열합니다.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Databricks 유틸리티

다음 명령을 실행하여 클라우드 개체 스토리지에 파일을 나열합니다.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")