파일 업로드를 사용하여 테이블 만들기 또는 수정

파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정을 사용하면 CSV, TSV 또는 JSON, Avro, Parquet 또는 텍스트 파일을 업로드하여 관리형 Delta Lake 테이블을 만들거나 덮어쓸 수 있습니다.

Unity 카탈로그 또는 Hive 메타스토어에서 관리되는 델타 테이블을 만들 수 있습니다.

참고 항목

데이터 추가 UI를 사용하거나 COPY INTO를 사용하여 클라우드 스토리지에서 파일을 로드할 수도 있습니다.

Important

로컬 컴퓨터에서 작은 CSV, TSV, JSON, Avro, Parquet 또는 텍스트 파일을 가져와서 UI를 사용하여 델타 테이블을 만들 수 있습니다.

  • 파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정은 한 번에 최대 10개의 파일 업로드를 지원합니다.
  • 업로드된 파일의 총 크기는 2GB 미만이어야 합니다.
  • 파일은 CSV, TSV, JSON, Avro, Parquet 또는 텍스트 파일이어야 하며 확장명이 ".csv", ".tsv"(또는 ".tab"), ".json", ".avro", ".parquet" 또는 ".txt"여야 합니다.
  • 압축된 파일(예: ziptar 파일)은 지원되지 않습니다.

파일 업로드

  1. 새 데이터 추가를 클릭합니다New Icon.>
  2. 테이블 만들기 또는 수정을 클릭합니다.
  3. 드롭 영역에서 직접 파일 브라우저 단추 또는 파일 끌어서 놓기를 클릭합니다.

참고 항목

가져온 파일은 매일 가비지가 수집되는 계정 내의 안전한 내부 위치에 업로드됩니다.

테이블 미리 보기, 구성 및 만들기

컴퓨팅 리소스에 연결하지 않고 준비 영역에 데이터를 업로드할 수 있지만 테이블을 미리 보고 구성하려면 활성 컴퓨팅 리소스를 선택해야 합니다.

업로드된 테이블에 대한 옵션을 구성할 때 데이터의 50개 행을 미리 볼 수 있습니다. 파일 이름 아래의 표 또는 목록 단추를 클릭하여 데이터 프레젠테이션을 전환합니다.

Azure Databricks는 포함된 스키마에 대해 구성된 위치에 관리 테이블의 데이터 파일을 저장합니다. 스키마에서 테이블을 만들려면 적절한 권한이 필요합니다.

다음을 수행하여 테이블을 만들 원하는 스키마를 선택합니다.

  1. (Unity 카탈로그 사용 작업 영역에만 해당) 카탈로그 또는 레거시 hive_metastore를 선택할 수 있습니다.
  2. 스키마를 선택합니다.
  3. (선택 사항) 테이블 이름을 편집합니다.

참고 항목

드롭다운을 사용하여 기존 테이블 덮어쓰기 또는 새 테이블 만들기를 선택할 수 있습니다. 이름이 충돌하는 새 테이블을 만들려는 작업에는 오류 메시지가 표시됩니다.

테이블을 만들기 전에 옵션 또는 을 구성할 수 있습니다.

테이블을 만들려면 페이지 아래쪽에서 만들기를 클릭합니다.

형식 옵션

형식 옵션은 업로드하는 파일 형식에 따라 달라집니다. 일반 서식 옵션은 헤더 표시줄에 표시되고, 덜 일반적으로 사용되는 옵션은 고급 특성 대화 상자에서 사용할 수 있습니다.

  • CSV의 경우 다음 옵션을 사용할 수 있습니다.
    • 첫 번째 행에 헤더 포함(기본적으로 사용): 이 옵션은 CSV/TSV 파일에 헤더가 포함되어 있는지 여부를 지정합니다.
    • 열 구분 기호: 열 사이의 구분 기호 문자입니다. 단일 문자만 허용되며 백슬래시는 지원되지 않습니다. 기본적으로 CSV 파일의 경우 쉼표로 설정됩니다.
    • 열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이 STRING으로 유추됩니다.
    • 행이 여러 줄에 걸쳐 있음(기본적으로 사용 안 함): 열 값이 파일의 여러 줄에 걸쳐 있는지 여부입니다.
    • 여러 파일에 스키마를 병합합니다. 여러 파일에서 스키마를 유추하고 각 파일의 스키마를 병합할지 여부입니다. 사용하지 않도록 설정하면 한 파일의 스키마가 사용됩니다.
  • JSON의 경우 다음 옵션을 사용할 수 있습니다.
    • 열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이 STRING으로 유추됩니다.
    • 행은 여러 줄 에 걸쳐 있습니다(기본적으로 사용됨): 열 값이 파일의 여러 줄에 걸쳐 있는지 여부입니다.
    • 메모 허용 (기본적으로 사용): 파일에 메모가 허용되는지 여부입니다.
    • 작은따옴표 허용(기본적으로 사용): 파일에서 작은따옴표가 허용되는지 여부입니다.
    • 타임스탬프 유추(기본적으로 사용): 타임스탬프 문자열을 로 유추할지 여부입니다 TimestampType.
  • JSON의 경우 다음 옵션을 사용할 수 있습니다.
    • 열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이 STRING으로 유추됩니다.
    • 행이 여러 줄에 걸쳐 있음(기본적으로 사용 안 함): 열 값이 파일의 여러 줄에 걸쳐 있는지 여부입니다.
    • 주석을 허용합니다. 파일에 메모가 허용되는지 여부입니다.
    • 작은따옴표 허용: 파일에서 작은따옴표가 허용되는지 여부입니다.
    • 타임스탬프 유추: 타임스탬프 문자열을 .로 TimestampType유추할지 여부

데이터 미리 보기는 서식 옵션을 편집할 때 자동으로 업데이트됩니다.

참고 항목

여러 파일을 업로드하면 다음 규칙이 적용됩니다.

  • 헤더 설정은 모든 파일에 적용됩니다. 데이터 손실을 방지하기 위해 업로드된 모든 파일에 헤더가 일관되게 없거나 있는지 확인합니다.
  • 업로드된 파일은 모든 데이터를 대상 테이블의 행으로 추가하여 결합합니다. 파일 업로드 중에 레코드 조인 또는 병합은 지원되지 않습니다.

열 이름 및 형식

열 이름 및 형식을 편집할 수 있습니다.

  • 형식을 편집하려면 형식이 있는 아이콘을 클릭합니다.

    참고 항목

    중첩 형식 STRUCT 은 편집할 ARRAY수 없습니다.

  • 열 이름을 편집하려면 열 맨 위에 있는 입력 상자를 클릭합니다.

    열 이름은 쉼표, 백슬래시 또는 유니코드 문자(예: 이모지)를 지원하지 않습니다.

열 데이터 형식은 기본적으로 CSV 및 JSON 파일에 대해 유추됩니다. 고급 특성>자동으로 열 형식 검색을 비활성화하여 모든 열을 STRING 형식으로 해석할 수 있습니다.

참고 항목

  • 스키마 유추는 열 형식을 가장 잘 검색합니다. 열 형식을 변경하면 값을 대상 데이터 형식으로 올바르게 캐스팅할 수 없는 경우 일부 값이 NULL로 캐스팅될 수 있습니다. BIGINTDATE 또는 TIMESTAMP 열로 캐스팅하는 것은 지원되지 않습니다. Databricks에서는 먼저 테이블을 만든 다음, 나중에 SQL 함수를 사용하여 이러한 열을 변환하는 것이 좋습니다.
  • 특수 문자를 사용하여 테이블 열 이름을 지원하기 위해 파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정은 열 매핑을 활용합니다.
  • 열에 주석을 추가하려면 테이블을 만들고 카탈로그 탐색기로 이동하여 주석을 추가할 수 있습니다.

지원되는 데이터 형식

파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정은 다음 데이터 형식을 지원합니다. 개별 데이터 형식에 대한 자세한 정보는 SQL 데이터 형식을 참조하세요.

데이터 형식 설명
BIGINT 8바이트의 부호 있는 정수입니다.
BOOLEAN 부울(true, false) 값입니다.
DATE 표준 시간대 없이 년, 월, 일 필드 값으로 구성된 값입니다.
DOUBLE 8바이트의 배정밀도 부동 소수점 숫자입니다.
STRING 문자 문자열 값입니다.
TIMESTAMP 세션 현지 표준 시간대가 있는 년, 월, 일, 시간, 분 및 초 필드의 값으로 구성된 값입니다.
STRUCT 필드 시퀀스에서 설명하는 구조가 있는 값입니다.
ARRAY 형식이 있는 요소 시퀀스로 구성된 값
elementType.
DECIMAL(P,S) 최대 정밀도 P 및 고정 소수 자릿수 S의 숫자입니다.

알려진 문제

DATE와 같은 캐스팅할 수 없는 형식(예: 'yyyy' 형식의 날짜)으로 BIGINT를 캐스팅하면 오류가 발생할 수 있습니다.