Microsoft Fabric의 Data Factory에서 구분된 텍스트 형식

이 문서에서는 Microsoft Fabric의 Data Factory 데이터 파이프라인에서 구분된 텍스트 형식을 구성하는 방법을 간략하게 설명합니다.

지원되는 기능

구분된 텍스트 형식은 원본 및 대상으로 다음과 같은 활동 및 커넥터에 대해 지원됩니다.

범주 커넥트or/Activity
지원되는 커넥터 Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
지원되는 활동 복사 작업
조회 작업
GetMetadata 작업
삭제 작업

복사 작업의 구분된 텍스트 형식

구분된 텍스트 형식을 구성하려면 데이터 파이프라인 복사 작업의 원본 또는 대상에서 연결을 선택한 다음 파일 형식 드롭다운 목록에서 DelimitedText를 선택합니다. 이 형식의 추가 구성을 위해 설정 선택합니다.

Screenshot showing file format settings.

구분된 텍스트 형식을 원본으로

파일 형식 섹션에서 설정선택한 후 팝업 파일 형식 설정 대화 상자에 다음 속성이 표시됩니다.

Screenshot showing source file format settings.

  • 압축 유형: 구분된 텍스트 파일을 읽는 데 사용되는 압축 코덱입니다. 드롭다운 목록에서 None, bzip2, gzip, deflate, ZipDeflate, TarGzip 또는 tar 형식 중에서 선택할 수 있습니다.

    ZipDeflate를 압축 유형으로 선택하면 Zip 파일 이름을 폴더로 유지하면 원본 탭의 고급 설정 아래에 표시됩니다.

    • zip 파일 이름을 폴더로 유지: 복사하는 동안 원본 zip 파일 이름을 폴더 구조로 유지할지 여부를 나타냅니다.
      • 이 상자가 검사(기본값)이면 서비스에서 압축을 푼 파일을 <specified file path>/<folder named as source zip file>/씁니다.
      • 이 상자가 un검사ed이면 서비스에서 압축을 푼 파일을 직접 <specified file path>씁니다. 경주 또는 예기치 않은 동작을 방지하기 위해 다른 원본 zip 파일에 중복된 파일 이름이 없는지 확인합니다.

    TarGzip/tar를 압축 유형으로 선택하면 압축 파일 이름을 폴더로 유지하면 원본 탭의 고급 설정 아래에 표시됩니다.

    • 압축 파일 이름을 폴더로 유지: 복사하는 동안 원본 압축 파일 이름을 폴더 구조로 유지할지 여부를 나타냅니다.
      • 이 상자가 검사(기본값)이면 서비스에서 압축을 <specified file path>/<folder named as source compressed file>/풉니다.
      • 이 상자가 un검사ed이면 서비스에서 압축 해제된 파일을 직접 <specified file path>씁니다. 경주 또는 예기치 않은 동작을 방지하기 위해 다른 원본 zip 파일에 중복된 파일 이름이 없는지 확인합니다.
  • 압축 수준: 압축 유형을 선택할 때 압축 비율을 지정합니다. 최적 또는 가장 빠른 중에서 선택할 수 있습니다.

    • 가장 빠른 속도: 결과 파일이 최적으로 압축되지 않은 경우에도 압축 작업이 가능한 한 빨리 완료되어야 합니다.
    • 최적: 작업을 완료하는 데 시간이 더 오래 걸리더라도 압축 작업을 최적으로 압축해야 합니다. 자세한 내용은 압축 수준 항목을 참조 하세요.
  • 열 구분 기호: 파일의 열을 구분하는 데 사용되는 문자입니다. 기본값은 쉼표(,)입니다.

  • 행 구분 기호: 파일의 행을 구분하는 데 사용되는 문자를 지정합니다. 한 문자만 허용됩니다. 기본값은 줄 바꿈 \n입니다.

  • 인코딩: 테스트 파일을 읽고 쓰는 데 사용되는 인코딩 형식입니다. 기본값은 UTF-8입니다.

  • 이스케이프 문자: 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 기본값은 백슬래시\입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다.

  • 따옴표 문자: 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 기본값은 큰따옴표"입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다.

  • 첫 번째 행을 머리글로 지정합니다. 첫 번째 행을 열 이름이 있는 머리글 줄로 처리/만들지 여부를 지정합니다. 허용되는 값이 선택되고 선택 취소됩니다(기본값). 머리글로 첫 번째 행을 선택 취소하면 UI 데이터 미리 보기 및 조회 작업 출력은 열 이름을 Prop_{n}(0부터 시작)으로 자동으로 생성합니다. 복사 작업에는 원본에서 대상으로 명시적으로 매핑해야 하며 서수(1부터 시작)로 열을 찾습니다.

  • Null 값: null 값의 문자열 표현을 지정합니다. 기본값은 빈 문자열입니다.

원본 탭의 고급 설정에서 추가로 구분된 텍스트 형식 관련 속성이 표시됩니다.

  • 줄 수 건너뛰기: 입력 파일에서 데이터를 읽을 때 건너뛸 비어 있지 않은 행 수를 나타냅니다. 줄 수 건너뛰기 및 첫 번째 행을 머리글로 지정하면 먼저 줄을 건너뛰고 입력 파일에서 헤더 정보를 읽습니다.

대상으로 구분된 텍스트 형식

파일 형식 섹션에서 설정선택한 후 팝업 파일 형식 설정 대화 상자에 다음 속성이 표시됩니다.

Screenshot showing destination file format settings.

  • 압축 유형: 구분된 텍스트 파일을 작성하는 데 사용되는 압축 코덱입니다. 드롭다운 목록에서 None, bzip2, gzip, deflate, ZipDeflate, TarGzip 또는 tar 형식 중에서 선택할 수 있습니다.

  • 압축 수준: 압축 유형을 선택할 때 압축 비율을 지정합니다. 최적 또는 가장 빠른 중에서 선택할 수 있습니다.

    • 가장 빠른 속도: 결과 파일이 최적으로 압축되지 않은 경우에도 압축 작업이 가능한 한 빨리 완료되어야 합니다.
    • 최적: 작업을 완료하는 데 시간이 더 오래 걸리더라도 압축 작업을 최적으로 압축해야 합니다. 자세한 내용은 압축 수준 항목을 참조 하세요.
  • 열 구분 기호: 파일의 열을 구분하는 데 사용되는 문자입니다. 기본값은 쉼표(,)입니다.

  • 행 구분 기호: 파일의 행을 구분하는 데 사용되는 문자입니다. 한 문자만 허용됩니다. 기본값은 줄 바꿈 \n입니다.

  • 인코딩: 테스트 파일을 작성하는 데 사용되는 인코딩 형식입니다. 기본값은 UTF-8입니다.

  • 이스케이프 문자: 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 기본값은 백슬래시\입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다.

  • 따옴표 문자: 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 기본값은 큰따옴표"입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다.

  • 첫 번째 행을 머리글로 지정합니다. 첫 번째 행을 열 이름이 있는 머리글 줄로 처리/만들지 여부를 지정합니다. 허용되는 값이 선택되고 선택 취소됩니다(기본값). 머리글로 첫 번째 행을 선택 취소하면 UI 데이터 미리 보기 및 조회 작업 출력은 열 이름을 Prop_{n}(0부터 시작)으로 자동으로 생성합니다. 복사 작업에는 원본에서 대상으로 명시적으로 매핑해야 하며 서수(1부터 시작)로 열을 찾습니다.

  • Null 값: null 값의 문자열 표현을 지정합니다. 기본값은 빈 문자열입니다.

대상 탭의 고급 설정 아래에 추가 구분된 텍스트 형식 관련 속성이 표시됩니다.

  • 모든 텍스트 따옴표: 모든 값을 따옴표로 묶습니다.

  • 파일 확장명: 출력 파일의 이름을 지정하는 데 사용되는 파일 확장명(예: .csv. .txt

  • 파일당 최대 행: 폴더에 데이터를 쓸 때 여러 파일에 쓰고 파일당 최대 행을 지정할 수 있습니다.

  • 파일 이름 접두사: 파일당 최대 행이 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은 <fileNamePrefix>_00000.<fileExtension>입니다. 지정하지 않으면 파일 이름 접두사는 자동으로 생성됩니다. 원본이 파일 기반 저장소이거나 파티션 옵션을 사용하도록 설정된 데이터 저장소인 경우에는 이 속성이 적용되지 않습니다.

테이블 요약

원본으로 구분된 텍스트

구분된 텍스트 형식을 사용하는 경우 복사 작업 원본 섹션에서 다음 속성이 지원됩니다.

이름 설명 필수 JSON 스크립트 속성
 파일 형식 사용할 파일 형식입니다. DelimitedText 형식(아래 datasetSettings):
DelimitedText
압축 유형 구분된 텍스트 파일을 읽는 데 사용되는 압축 코덱입니다. 다음 중에서 선택합니다.
없음
bzip2
Gzip

ZipDeflate
TarGzip
타르
아니요 형식(아래 compression):

bzip2
gzip

ZipDeflate
TarGzip
tar
zip 파일 이름을 폴더로 유지 원본 zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. ZipDeflate 압축을 선택하면 적용됩니다. 선택 또는 선택 취소 아님 preserveZipFileNameAsFolder
(compressionProperties->type 아래 ZipDeflateReadSettings으로)
압축 파일 이름을 폴더로 유지 원본 압축 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. TarGzip/tar 압축을 선택하면 적용됩니다. 선택 또는 선택 취소 아니요 preserveCompressionFileNameAsFolder
(compressionProperties->type 아래 TarGZipReadSettings 또는 TarReadSettings으로)
압축 수준  압축 비율입니다. 허용되는 값은 최적 또는 가장 빠릅니다. 최적 또는 가장 빠른 아님 수준(아래 compression):
가장 빠름
최적
열 구분 기호  파일의 열을 구분하는 데 사용되는 문자입니다.  < 선택한 열 구분 기호 >
쉼표, (기본적으로)
아니요 columnDelimiter
행 구분 기호 파일의 행을 구분하는 데 사용되는 문자입니다. < 선택한 행 구분 기호 >
\r,\n (기본적으로) 또는 r\n
아님 rowDelimiter
인코딩 테스트 파일을 읽고 쓰는 데 사용되는 인코딩 형식입니다. "UTF-8"(기본적으로),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS--1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" 아님 encodingName
이스케이프 문자 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다. < 선택한 이스케이프 문자 >
백슬래시\ (기본적으로)
아니요 escapeChar
따옴표 문자 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다. < 선택한 따옴표 문자 >
큰따옴표" (기본적으로)
아니요 quoteChar
첫 번째 행을 머리글로 지정된 워크시트/범위의 첫 번째 행을 열 이름의 머리글 줄로 처리할지 여부를 지정합니다. 선택되었거나 선택 취소됨 아니요 firstRowAsHeader:
true 또는 false(기본값)
Null 값 null 값의 문자열 표현을 지정합니다. 기본값은 빈 문자열입니다. < null 값의 문자열 표현 >
빈 문자열(기본적으로)
아니요 nullValue

대상으로 구분된 텍스트

구분된 텍스트 형식을 사용하는 경우 복사 작업 대상 섹션에서 다음 속성이 지원됩니다.

이름 설명 필수 JSON 스크립트 속성
 파일 형식 사용할 파일 형식입니다. DelimitedText 형식(아래 datasetSettings):
DelimitedText
압축 유형 구분된 텍스트 파일을 작성하는 데 사용되는 압축 코덱입니다. 다음 중에서 선택합니다.
없음
bzip2
Gzip

ZipDeflate
TarGzip
타르
아니요 형식(아래 compression):

bzip2
gzip

ZipDeflate
TarGzip
tar
zip 파일 이름을 폴더로 유지 원본 zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. 선택 또는 선택 취소 아님 preserveZipFileNameAsFolder
(compressionProperties->type 아래 ZipDeflateReadSettings으로)
압축 파일 이름을 폴더로 유지 원본 압축 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. 선택 또는 선택 취소 아니요 preserveCompressionFileNameAsFolder
(compressionProperties->type 아래 TarGZipReadSettings 또는 TarReadSettings으로)
압축 수준  압축 비율입니다. 허용되는 값은 최적 또는 가장 빠릅니다. 최적 또는 가장 빠른 아님 수준(아래 compression):
가장 빠름
최적
열 구분 기호  파일의 열을 구분하는 데 사용되는 문자입니다.  < 선택한 열 구분 기호 >
쉼표 , (기본적으로)
아니요 columnDelimiter
행 구분 기호 파일의 행을 구분하는 데 사용되는 문자입니다. < 선택한 행 구분 기호 >
\r,\n (기본적으로) 또는 r\n
아님 rowDelimiter
인코딩 테스트 파일을 읽고 쓰는 데 사용되는 인코딩 형식입니다. "UTF-8"(기본적으로),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS--1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" 아님 encodingName
이스케이프 문자 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다. < 선택한 이스케이프 문자 >
백슬래시\ (기본적으로)
아니요 escapeChar
따옴표 문자 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다. < 선택한 따옴표 문자 >
큰따옴표" (기본적으로)
아니요 quoteChar
첫 번째 행을 머리글로 지정된 워크시트/범위의 첫 번째 행을 열 이름의 머리글 줄로 처리할지 여부를 지정합니다. 선택되었거나 선택 취소됨 아니요 firstRowAsHeader:
true 또는 false(기본값)
모든 텍스트 따옴표 모든 값을 따옴표로 묶습니다. 선택됨(기본값) 또는 선택 취소됨 아니요 quoteAllText:
true(기본값) 또는 false
파일 확장자 출력 파일의 이름을 지정하는 데 사용되는 파일 확장명입니다. < 파일 확장자 >
.txt(기본값)
아니요 fileExtension
파일당 최대 행 수 폴더에 데이터를 쓸 때 여러 파일에 쓰고 파일당 최대 행을 지정하도록 선택할 수 있습니다. < 파일당 최대 행 수 > 아니요 maxRowsPerFile
파일 이름 접두사 파일당 최대 행이 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은 <fileNamePrefix>_00000.<fileExtension>입니다. 지정하지 않으면 파일 이름 접두사는 자동으로 생성됩니다. 원본이 파일 기반 저장소이거나 파티션 옵션을 사용하도록 설정된 데이터 저장소인 경우에는 이 속성이 적용되지 않습니다. < 파일 이름 접두사 > 아니요 fileNamePrefix