다음을 통해 공유


Unity 카탈로그 외부 위치를 사용하여 데이터 로드하기

Important

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 Unity 카탈로그 외부 위치를 사용하여 Azure Data Lake Storage Gen2에 있는 데이터를 기반으로 관리형 테이블을 생성하기 위해 데이터 추가 UI를 사용하는 방법을 설명합니다. 외부 위치는 클라우드 스토리지 경로에 대한 액세스를 승인하는 스토리지 자격 증명과 클라우드 스토리지 경로를 결합한 개체입니다.

시작하기 전에

시작하기 전에 다음이 있어야 합니다.

파일 형식

다음 파일 형식이 지원됩니다.

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

1단계: 외부 위치에 대한 액세스 확인

외부 위치에 대한 액세스를 확인하려면 다음을 수행하세요.

  1. Azure Databricks 작업 영역의 사이드바에서 카탈로그를 클릭합니다.
  2. 카탈로그 탐색기에서 외부 데이터>외부 위치를 클릭하세요.

2단계: 관리형 테이블 생성

관리되는 테이블을 만들려면 다음을 수행하세요.

  1. 작업 공간의 사이드바에서 + 새로 만들기>데이터 추가를 클릭합니다.

  2. 데이터 추가 UI에서 Azure Data Lake Storage를 클릭합니다.

  3. 드롭다운 목록에서 외부 위치를 선택합니다.

  4. Azure Databricks에 로드할 폴더와 파일을 선택한 후 프리뷰 테이블을 클릭하세요.

  5. 드롭다운 목록에서 카탈로그 및 스키마를 선택합니다.

  6. (선택 사항) 테이블 이름을 편집합니다.

  7. (선택 사항) 파일 유형별 고급 형식 옵션을 설정하려면 고급 특성을 클릭하고, 자동으로 파일 형식 검색하기를 끈 다음 파일 유형을 선택하세요.

    서식 옵션 목록은 다음 섹션을 참조하세요.

  8. (선택 사항) 열 이름을 편집하려면 열 맨 위에 있는 입력 상자를 클릭합니다.

    열 이름은 쉼표, 백슬래시 또는 유니코드 문자(예: 이모지)를 지원하지 않습니다.

  9. (선택 사항) 형식을 편집하려면 형식이 있는 아이콘을 클릭합니다.

  10. 테이블 만들기를 클릭합니다.

파일 형식 옵션

파일 형식에 따라 다음 형식 옵션을 사용할 수 있습니다.

형식 옵션 설명 지원되는 파일 형식
Column delimiter 열 사이의 구분 문자입니다. 단일 문자만 허용되며 백슬래시는 지원되지 않습니다.

기본값은 쉼표입니다.
CSV
Escape character 데이터를 구문 분석할 때 사용할 이스케이프 문자입니다.

기본값은 큰따옴표(")입니다.
CSV
First row contains the header 이 옵션은 파일에 헤더가 포함되어 있는지 여부를 지정합니다.

기본적으로 사용하도록 설정되어 있습니다.
CSV
Automatically detect file type 파일 형식을 자동으로 감지합니다. 기본값은 true입니다. XML
Automatically detect column types 파일 콘텐츠에서 열 유형을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이 STRING으로 유추됩니다.

기본적으로 사용하도록 설정되어 있습니다.
- CSV

- JSON
- XML
Rows span multiple lines 열의 값이 파일의 여러 줄에 걸쳐 있을 수 있는지 여부입니다.

기본적으로 사용하지 않도록 설정되어 있습니다.
- CSV

- JSON
Merge the schema across multiple files 여러 파일에서 스키마를 유추하고 각 파일의 스키마를 병합할지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
CSV
Allow comments 파일에 주석이 허용되는지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
JSON
Allow single quotes 파일에서 작은따옴표(')가 허용되는지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
JSON
Infer timestamp 타임스탬프 문자열을 TimestampType으로 유추할지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
JSON
Rescued data column 스키마와 일치하지 않는 열을 저장할지 여부입니다. 자세한 내용은구조된 데이터 열(Rescued Data Column)이란?을 참조하세요.

기본적으로 사용하도록 설정되어 있습니다.
- CSV

- JSON
- Avro
- Parquet
Exclude attribute 요소의 특성을 제외할지 여부입니다. 기본값은 false입니다. XML
Attribute prefix 특성과 요소를 구별하기 위한 특성의 접두사. 기본값은 _입니다. XML

열 데이터 형식

다음 열 데이터 유형이 지원됩니다. 개별 데이터 형식에 대한 자세한 정보는 SQL 데이터 형식을 참조하세요.

데이터 형식 설명
BIGINT 8바이트의 부호 있는 정수입니다.
BOOLEAN 부울(true, false) 값입니다.
DATE 표준 시간대가 포함되지 않은 날짜입니다.
DECIMAL (P,S) 최대 정밀도 P와 고정 스케일 S를 갖는 숫자입니다.
DOUBLE 8바이트의 배정밀도 부동 소수점 숫자입니다.
STRING 문자 문자열 값입니다.
TIMESTAMP 세션 현지 표준 시간대가 있는 년, 월, 일, 시간, 분 및 초 필드의 값으로 구성된 값입니다.

알려진 문제

  • 백틱 또는 콜론이 포함된 키가 있는 JSON 객체와 같이 복잡한 데이터 형식에서 특수 문자로 인해 문제가 발생할 수 있습니다.
  • 일부 JSON 파일은 파일 형식에 대해 JSON을 수동으로 선택해야 할 수 있습니다. 파일을 선택한 후 파일 형식을 수동으로 선택하려면 고급 특성을 클릭하고 파일 형식 자동 검색하기를 해제한 다음 JSON을 선택합니다.
  • 복합 형식 내의 중첩된 타임스탬프 및 소수점 값에서 문제가 발생할 수 있습니다.