Microsoft Fabric의 Data Factory에서 구분된 텍스트 형식
이 문서에서는 Microsoft Fabric의 Data Factory 데이터 파이프라인에서 구분된 텍스트 형식을 구성하는 방법을 간략하게 설명합니다.
지원되는 기능
구분된 텍스트 형식은 원본 및 대상으로 다음과 같은 활동 및 커넥터에 대해 지원됩니다.
범주 | 커넥트or/Activity |
---|---|
지원되는 커넥터 | Amazon S3 |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
지원되는 활동 | 복사 작업 |
조회 작업 | |
GetMetadata 작업 | |
삭제 작업 |
복사 작업의 구분된 텍스트 형식
구분된 텍스트 형식을 구성하려면 데이터 파이프라인 복사 작업의 원본 또는 대상에서 연결을 선택한 다음 파일 형식 드롭다운 목록에서 DelimitedText를 선택합니다. 이 형식의 추가 구성을 위해 설정 선택합니다.
구분된 텍스트 형식을 원본으로
파일 형식 섹션에서 설정선택한 후 팝업 파일 형식 설정 대화 상자에 다음 속성이 표시됩니다.
압축 유형: 구분된 텍스트 파일을 읽는 데 사용되는 압축 코덱입니다. 드롭다운 목록에서 None, bzip2, gzip, deflate, ZipDeflate, TarGzip 또는 tar 형식 중에서 선택할 수 있습니다.
ZipDeflate를 압축 유형으로 선택하면 Zip 파일 이름을 폴더로 유지하면 원본 탭의 고급 설정 아래에 표시됩니다.
- zip 파일 이름을 폴더로 유지: 복사하는 동안 원본 zip 파일 이름을 폴더 구조로 유지할지 여부를 나타냅니다.
- 이 상자가 검사(기본값)이면 서비스에서 압축을 푼 파일을
<specified file path>/<folder named as source zip file>/
씁니다. - 이 상자가 un검사ed이면 서비스에서 압축을 푼 파일을 직접
<specified file path>
씁니다. 경주 또는 예기치 않은 동작을 방지하기 위해 다른 원본 zip 파일에 중복된 파일 이름이 없는지 확인합니다.
- 이 상자가 검사(기본값)이면 서비스에서 압축을 푼 파일을
TarGzip/tar를 압축 유형으로 선택하면 압축 파일 이름을 폴더로 유지하면 원본 탭의 고급 설정 아래에 표시됩니다.
- 압축 파일 이름을 폴더로 유지: 복사하는 동안 원본 압축 파일 이름을 폴더 구조로 유지할지 여부를 나타냅니다.
- 이 상자가 검사(기본값)이면 서비스에서 압축을
<specified file path>/<folder named as source compressed file>/
풉니다. - 이 상자가 un검사ed이면 서비스에서 압축 해제된 파일을 직접
<specified file path>
씁니다. 경주 또는 예기치 않은 동작을 방지하기 위해 다른 원본 zip 파일에 중복된 파일 이름이 없는지 확인합니다.
- 이 상자가 검사(기본값)이면 서비스에서 압축을
- zip 파일 이름을 폴더로 유지: 복사하는 동안 원본 zip 파일 이름을 폴더 구조로 유지할지 여부를 나타냅니다.
압축 수준: 압축 유형을 선택할 때 압축 비율을 지정합니다. 최적 또는 가장 빠른 중에서 선택할 수 있습니다.
- 가장 빠른 속도: 결과 파일이 최적으로 압축되지 않은 경우에도 압축 작업이 가능한 한 빨리 완료되어야 합니다.
- 최적: 작업을 완료하는 데 시간이 더 오래 걸리더라도 압축 작업을 최적으로 압축해야 합니다. 자세한 내용은 압축 수준 항목을 참조 하세요.
열 구분 기호: 파일의 열을 구분하는 데 사용되는 문자입니다. 기본값은 쉼표(
,
)입니다.행 구분 기호: 파일의 행을 구분하는 데 사용되는 문자를 지정합니다. 한 문자만 허용됩니다. 기본값은 줄 바꿈
\n
입니다.인코딩: 테스트 파일을 읽고 쓰는 데 사용되는 인코딩 형식입니다. 기본값은 UTF-8입니다.
이스케이프 문자: 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 기본값은 백슬래시
\
입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다.따옴표 문자: 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 기본값은 큰따옴표
"
입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다.첫 번째 행을 머리글로 지정합니다. 첫 번째 행을 열 이름이 있는 머리글 줄로 처리/만들지 여부를 지정합니다. 허용되는 값이 선택되고 선택 취소됩니다(기본값). 머리글로 첫 번째 행을 선택 취소하면 UI 데이터 미리 보기 및 조회 작업 출력은 열 이름을 Prop_{n}(0부터 시작)으로 자동으로 생성합니다. 복사 작업에는 원본에서 대상으로 명시적으로 매핑해야 하며 서수(1부터 시작)로 열을 찾습니다.
Null 값: null 값의 문자열 표현을 지정합니다. 기본값은 빈 문자열입니다.
원본 탭의 고급 설정에서 추가로 구분된 텍스트 형식 관련 속성이 표시됩니다.
- 줄 수 건너뛰기: 입력 파일에서 데이터를 읽을 때 건너뛸 비어 있지 않은 행 수를 나타냅니다. 줄 수 건너뛰기 및 첫 번째 행을 머리글로 지정하면 먼저 줄을 건너뛰고 입력 파일에서 헤더 정보를 읽습니다.
대상으로 구분된 텍스트 형식
파일 형식 섹션에서 설정선택한 후 팝업 파일 형식 설정 대화 상자에 다음 속성이 표시됩니다.
압축 유형: 구분된 텍스트 파일을 작성하는 데 사용되는 압축 코덱입니다. 드롭다운 목록에서 None, bzip2, gzip, deflate, ZipDeflate, TarGzip 또는 tar 형식 중에서 선택할 수 있습니다.
압축 수준: 압축 유형을 선택할 때 압축 비율을 지정합니다. 최적 또는 가장 빠른 중에서 선택할 수 있습니다.
- 가장 빠른 속도: 결과 파일이 최적으로 압축되지 않은 경우에도 압축 작업이 가능한 한 빨리 완료되어야 합니다.
- 최적: 작업을 완료하는 데 시간이 더 오래 걸리더라도 압축 작업을 최적으로 압축해야 합니다. 자세한 내용은 압축 수준 항목을 참조 하세요.
열 구분 기호: 파일의 열을 구분하는 데 사용되는 문자입니다. 기본값은 쉼표(
,
)입니다.행 구분 기호: 파일의 행을 구분하는 데 사용되는 문자입니다. 한 문자만 허용됩니다. 기본값은 줄 바꿈
\n
입니다.인코딩: 테스트 파일을 작성하는 데 사용되는 인코딩 형식입니다. 기본값은 UTF-8입니다.
이스케이프 문자: 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 기본값은 백슬래시
\
입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다.따옴표 문자: 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 기본값은 큰따옴표
"
입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다.첫 번째 행을 머리글로 지정합니다. 첫 번째 행을 열 이름이 있는 머리글 줄로 처리/만들지 여부를 지정합니다. 허용되는 값이 선택되고 선택 취소됩니다(기본값). 머리글로 첫 번째 행을 선택 취소하면 UI 데이터 미리 보기 및 조회 작업 출력은 열 이름을 Prop_{n}(0부터 시작)으로 자동으로 생성합니다. 복사 작업에는 원본에서 대상으로 명시적으로 매핑해야 하며 서수(1부터 시작)로 열을 찾습니다.
Null 값: null 값의 문자열 표현을 지정합니다. 기본값은 빈 문자열입니다.
대상 탭의 고급 설정 아래에 추가 구분된 텍스트 형식 관련 속성이 표시됩니다.
모든 텍스트 따옴표: 모든 값을 따옴표로 묶습니다.
파일 확장명: 출력 파일의 이름을 지정하는 데 사용되는 파일 확장명(예:
.csv
..txt
파일당 최대 행: 폴더에 데이터를 쓸 때 여러 파일에 쓰고 파일당 최대 행을 지정할 수 있습니다.
파일 이름 접두사: 파일당 최대 행이 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은
<fileNamePrefix>_00000.<fileExtension>
입니다. 지정하지 않으면 파일 이름 접두사는 자동으로 생성됩니다. 원본이 파일 기반 저장소이거나 파티션 옵션을 사용하도록 설정된 데이터 저장소인 경우에는 이 속성이 적용되지 않습니다.
테이블 요약
원본으로 구분된 텍스트
구분된 텍스트 형식을 사용하는 경우 복사 작업 원본 섹션에서 다음 속성이 지원됩니다.
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용할 파일 형식입니다. | DelimitedText | 예 | 형식(아래 datasetSettings ):DelimitedText |
압축 유형 | 구분된 텍스트 파일을 읽는 데 사용되는 압축 코덱입니다. | 다음 중에서 선택합니다. 없음 bzip2 Gzip 폐 ZipDeflate TarGzip 타르 |
아니요 | 형식(아래 compression ): bzip2 gzip 폐 ZipDeflate TarGzip tar |
zip 파일 이름을 폴더로 유지 | 원본 zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. ZipDeflate 압축을 선택하면 적용됩니다. | 선택 또는 선택 취소 | 아님 | preserveZipFileNameAsFolder ( compressionProperties ->type 아래 ZipDeflateReadSettings 으로) |
압축 파일 이름을 폴더로 유지 | 원본 압축 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. TarGzip/tar 압축을 선택하면 적용됩니다. | 선택 또는 선택 취소 | 아니요 | preserveCompressionFileNameAsFolder ( compressionProperties ->type 아래 TarGZipReadSettings 또는 TarReadSettings 으로) |
압축 수준 | 압축 비율입니다. 허용되는 값은 최적 또는 가장 빠릅니다. | 최적 또는 가장 빠른 | 아님 | 수준(아래 compression ): 가장 빠름 최적 |
열 구분 기호 | 파일의 열을 구분하는 데 사용되는 문자입니다. | < 선택한 열 구분 기호 > 쉼표 , (기본적으로) |
아니요 | columnDelimiter |
행 구분 기호 | 파일의 행을 구분하는 데 사용되는 문자입니다. | < 선택한 행 구분 기호 > \r ,\n (기본적으로) 또는 r\n |
아님 | rowDelimiter |
인코딩 | 테스트 파일을 읽고 쓰는 데 사용되는 인코딩 형식입니다. | "UTF-8"(기본적으로),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS--1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | 아님 | encodingName |
이스케이프 문자 | 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다. | < 선택한 이스케이프 문자 > 백슬래시 \ (기본적으로) |
아니요 | escapeChar |
따옴표 문자 | 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다. | < 선택한 따옴표 문자 > 큰따옴표 " (기본적으로) |
아니요 | quoteChar |
첫 번째 행을 머리글로 | 지정된 워크시트/범위의 첫 번째 행을 열 이름의 머리글 줄로 처리할지 여부를 지정합니다. | 선택되었거나 선택 취소됨 | 아니요 | firstRowAsHeader: true 또는 false(기본값) |
Null 값 | null 값의 문자열 표현을 지정합니다. 기본값은 빈 문자열입니다. | < null 값의 문자열 표현 > 빈 문자열(기본적으로) |
아니요 | nullValue |
대상으로 구분된 텍스트
구분된 텍스트 형식을 사용하는 경우 복사 작업 대상 섹션에서 다음 속성이 지원됩니다.
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용할 파일 형식입니다. | DelimitedText | 예 | 형식(아래 datasetSettings ):DelimitedText |
압축 유형 | 구분된 텍스트 파일을 작성하는 데 사용되는 압축 코덱입니다. | 다음 중에서 선택합니다. 없음 bzip2 Gzip 폐 ZipDeflate TarGzip 타르 |
아니요 | 형식(아래 compression ): bzip2 gzip 폐 ZipDeflate TarGzip tar |
zip 파일 이름을 폴더로 유지 | 원본 zip 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. | 선택 또는 선택 취소 | 아님 | preserveZipFileNameAsFolder ( compressionProperties ->type 아래 ZipDeflateReadSettings 으로) |
압축 파일 이름을 폴더로 유지 | 원본 압축 파일 이름을 복사 중에 폴더 구조로 유지할지 여부를 나타냅니다. | 선택 또는 선택 취소 | 아니요 | preserveCompressionFileNameAsFolder ( compressionProperties ->type 아래 TarGZipReadSettings 또는 TarReadSettings 으로) |
압축 수준 | 압축 비율입니다. 허용되는 값은 최적 또는 가장 빠릅니다. | 최적 또는 가장 빠른 | 아님 | 수준(아래 compression ): 가장 빠름 최적 |
열 구분 기호 | 파일의 열을 구분하는 데 사용되는 문자입니다. | < 선택한 열 구분 기호 > 쉼표 , (기본적으로) |
아니요 | columnDelimiter |
행 구분 기호 | 파일의 행을 구분하는 데 사용되는 문자입니다. | < 선택한 행 구분 기호 > \r ,\n (기본적으로) 또는 r\n |
아님 | rowDelimiter |
인코딩 | 테스트 파일을 읽고 쓰는 데 사용되는 인코딩 형식입니다. | "UTF-8"(기본적으로),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM88 70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS--1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | 아님 | encodingName |
이스케이프 문자 | 따옴표 안에 따옴표를 이스케이프할 단일 문자입니다. 이스케이프 문자가 빈 문자열 로 정의되면 Quote 문자 도 빈 문자열로 설정해야 하며, 이 경우 모든 열 값에 구분 기호가 포함되지 않도록 해야 합니다. | < 선택한 이스케이프 문자 > 백슬래시 \ (기본적으로) |
아니요 | escapeChar |
따옴표 문자 | 열 구분 기호가 포함된 경우 열 값을 인용할 단일 문자입니다. 따옴표 문자가 빈 문자열로 정의되면 따옴표 문자가 없고 열 값이 따옴표로 묶이지 않으며 열 구분 기호와 그 자체를 이스케이프하는 데 이스케이프 문자가 사용됨을 의미합니다. | < 선택한 따옴표 문자 > 큰따옴표 " (기본적으로) |
아니요 | quoteChar |
첫 번째 행을 머리글로 | 지정된 워크시트/범위의 첫 번째 행을 열 이름의 머리글 줄로 처리할지 여부를 지정합니다. | 선택되었거나 선택 취소됨 | 아니요 | firstRowAsHeader: true 또는 false(기본값) |
모든 텍스트 따옴표 | 모든 값을 따옴표로 묶습니다. | 선택됨(기본값) 또는 선택 취소됨 | 아니요 | quoteAllText: true(기본값) 또는 false |
파일 확장자 | 출력 파일의 이름을 지정하는 데 사용되는 파일 확장명입니다. | < 파일 확장자 > .txt (기본값) |
아니요 | fileExtension |
파일당 최대 행 수 | 폴더에 데이터를 쓸 때 여러 파일에 쓰고 파일당 최대 행을 지정하도록 선택할 수 있습니다. | < 파일당 최대 행 수 > | 아니요 | maxRowsPerFile |
파일 이름 접두사 | 파일당 최대 행이 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은 <fileNamePrefix>_00000.<fileExtension> 입니다. 지정하지 않으면 파일 이름 접두사는 자동으로 생성됩니다. 원본이 파일 기반 저장소이거나 파티션 옵션을 사용하도록 설정된 데이터 저장소인 경우에는 이 속성이 적용되지 않습니다. |
< 파일 이름 접두사 > | 아니요 | fileNamePrefix |
관련 콘텐츠
피드백
https://aka.ms/ContentUserFeedback을 참조하세요.
출시 예정: 2024년 내내 콘텐츠 피드백 메커니즘인 GitHub 문제를 단계적으로 폐지하고 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은다음에 대한 사용자 의견 제출 및 보기