Unity 카탈로그 외부 위치를 사용하여 데이터 로드

Important

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 데이터 추가 UI를 사용하여 Unity 카탈로그 외부 위치를 사용하여 Azure Data Lake Storage Gen2의 데이터에서 관리되는 테이블을 만드는 방법을 설명합니다. 외부 위치는 클라우드 스토리지 경로에 대한 액세스를 승인하는 스토리지 자격 증명과 클라우드 스토리지 경로를 결합한 개체입니다.

외부 위치를 사용하여 데이터를 로드하는 다른 방법은 클라우드 테넌트에 저장된 파일에서 테이블 만들기를 참조하세요.

시작하기 전에

시작하기 전에 다음이 있어야 합니다.

파일 형식

다음 파일 형식이 지원됩니다.

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

1단계: 외부 위치에 대한 액세스 확인

외부 위치에 대한 액세스를 확인하려면 다음을 수행합니다.

  1. Azure Databricks 작업 영역의 사이드바에서 카탈로그를 클릭합니다.
  2. 카탈로그 탐색기에서 외부 데이터>외부 위치를 클릭합니다.

2단계: 관리되는 테이블 만들기

관리되는 테이블을 만들려면 다음을 수행합니다.

  1. 작업 영역의 사이드바에서 + 새>데이터 추가를 클릭합니다.

  2. 데이터 추가 UI에서 Azure Data Lake Storage를 클릭합니다.

  3. 드롭다운 목록에서 외부 위치를 선택합니다.

  4. Azure Databricks에 로드할 폴더 및 파일을 선택한 다음 미리 보기 테이블을 클릭합니다.

  5. 드롭다운 목록에서 카탈로그 및 스키마를 선택합니다.

  6. (선택 사항) 테이블 이름을 편집합니다.

  7. (선택 사항) 파일 형식별로 고급 형식 옵션을 설정하려면 고급 특성을 클릭하고 파일 형식 자동 검색을 해제한 다음 파일 형식을 선택합니다.

    서식 옵션 목록은 다음 섹션을 참조하세요.

  8. (선택 사항) 열 이름을 편집하려면 열 맨 위에 있는 입력란을 클릭합니다.

    열 이름은 쉼표, 백슬라이시 또는 유니코드 문자(예: 이모지)를 지원하지 않습니다.

  9. (선택 사항) 열 형식을 편집하려면 형식이 있는 아이콘을 클릭합니다.

  10. 테이블 만들기를 클릭합니다.

파일 형식 형식 옵션

파일 형식에 따라 다음 형식 옵션을 사용할 수 있습니다.

형식 옵션 설명 지원되는 파일 형식
Column delimiter 열 사이의 구분 기호 문자입니다. 단일 문자만 허용되며 백슬래시는 지원되지 않습니다.

기본값은 쉼표입니다.
CSV
Escape character 데이터를 구문 분석할 때 사용할 이스케이프 문자입니다.

기본값은 따옴표입니다.
CSV
First row contains the header 이 옵션은 파일에 헤더가 포함되어 있는지 여부를 지정합니다.

기본적으로 사용하도록 설정되어 있습니다.
CSV
Automatically detect file type 파일 형식을 자동으로 검색합니다. 기본값은 true입니다. XML
Automatically detect column types 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이 STRING으로 유추됩니다.

기본적으로 사용하도록 설정되어 있습니다.
*Csv

*Json
*Xml
Rows span multiple lines 열의 값이 파일의 여러 줄에 걸쳐 있는지 여부입니다.

기본적으로 사용하지 않도록 설정되어 있습니다.
*Csv

*Json
Merge the schema across multiple files 여러 파일에서 스키마를 유추하고 각 파일의 스키마를 병합할지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
CSV
Allow comments 파일에 주석이 허용되는지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
JSON
Allow single quotes 파일에서 작은따옴표가 허용되는지 여부입니다.

기본적으로 사용하도록 설정되어 있습니다.
JSON
Infer timestamp 타임스탬프 문자열을 .로 TimestampType유추할지 여부

기본적으로 사용하도록 설정되어 있습니다.
JSON
Rescued data column 스키마와 일치하지 않는 열을 저장할지 여부입니다. 자세한 내용은 구조된 데이터 열이란?을 참조하세요.

기본적으로 사용하도록 설정되어 있습니다.
*Csv

*Json
*Avro
*쪽모이 세공 마루
Exclude attribute 요소에서 특성을 제외할지 여부입니다. 기본값은 false입니다. XML
Attribute prefix 특성과 요소를 구분하는 특성의 접두사입니다. 기본값은 _입니다. XML

열 데이터 형식

지원되는 열 데이터 형식은 다음과 같습니다. 개별 데이터 형식에 대한 자세한 정보는 SQL 데이터 형식을 참조하세요.

데이터 형식 설명
BIGINT 8바이트의 부호 있는 정수입니다.
BOOLEAN 부울(true, false) 값입니다.
DATE 표준 시간대가 없는 날짜입니다.
DECIMAL (P,S) 최대 정밀도 P 및 고정 소수 자릿수 S의 숫자입니다.
DOUBLE 8바이트의 배정밀도 부동 소수점 숫자입니다.
STRING 문자 문자열 값입니다.
TIMESTAMP 세션 현지 표준 시간대가 있는 년, 월, 일, 시간, 분 및 초 필드의 값으로 구성된 값입니다.

알려진 문제

  • 백틱 또는 콜론이 포함된 키가 있는 JSON 개체와 같이 복잡한 데이터 형식의 특수 문자에 문제가 발생할 수 있습니다.
  • 일부 JSON 파일은 파일 형식에 대해 JSON을 수동으로 선택해야 할 수 있습니다. 파일을 선택한 후 파일 형식을 수동으로 선택하려면 고급 특성을 클릭하고 파일 형식 자동 검색을 해제한 다음 JSON을 선택합니다.
  • 복합 형식 내의 중첩된 타임스탬프 및 소수점은 문제가 발생할 수 있습니다.