TransformationMixin 클래스
이 클래스는 출력 데이터 세트에 대한 변환 기능을 제공합니다.
- 상속
-
builtins.objectTransformationMixin
생성자
TransformationMixin()
메서드
read_delimited_files |
모든 출력을 구분된 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다. |
read_parquet_files |
모든 출력을 Parquet 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다. 테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다. |
read_delimited_files
모든 출력을 구분된 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
매개 변수
- include_path
- bool
경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.
- partition_format
- str
경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 ‘../Accounts/2019/01/01/data.parquet’ 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'는 값이 ‘Accounts’인 문자열 열 ‘Department’와 값이 ‘2019-01-01’인 날짜/시간 열 ‘PartitionDate’를 만듭니다.
- path_glob
- str
구분된 파일로 읽을 파일을 필터링하는 glob과 같은 패턴입니다. None으로 설정하면 모든 파일을 구분된 파일로 읽게 됩니다.
Glob은 Unix 스타일 경로 이름 패턴 확장(https://docs.python.org/3/library/glob.html)입니다.
예)
- *.csv ->.csv 파일 확장자를 가진 파일 선택
- test_.csv* ->test_로 시작되고 .csv 파일 확장자가 있는 파일 이름을 가진 파일 선택
- /myrootdir/project_one///.txt* ->/myrootdir/project_one/에 있는 두 개의 하위 디렉터리이며 .txt 파일 확장명이 있는 파일을 선택합니다.
참고: 큰 디렉터리 트리에서 **** 패턴을 사용하면 지나치게 많은 시간을 소비할 수 있습니다. 일반적으로 큰 디렉터리 트리의 경우 glob 패턴에 더 구체적이면 성능이 향상될 수 있습니다.
키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 문자열 형식으로 유지됩니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.
반환
출력을 TabularDataset로 변환하는 방법에 대한 지침이 포함된 OutputTabularDatasetConfig 인스턴스입니다.
반환 형식
read_parquet_files
모든 출력을 Parquet 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.
테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
매개 변수
- include_path
- bool
경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.
- partition_format
- str
경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 ‘../Accounts/2019/01/01/data.parquet’ 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'는 값이 ‘Accounts’인 문자열 열 ‘Department’와 값이 ‘2019-01-01’인 날짜/시간 열 ‘PartitionDate’를 만듭니다.
- path_glob
- str
parquet 파일로 읽을 파일을 필터링하는 glob과 같은 패턴입니다. None으로 설정하면 모든 파일을 parquet 파일로 읽게 됩니다.
Glob은 Unix 스타일 경로 이름 패턴 확장(https://docs.python.org/3/library/glob.html)입니다.
예)
- *.parquet ->.parquet 파일 확장자를 가진 파일 선택
- test_.parquet* ->test_로 시작되고 .parquet 파일 확장자가 있는 파일 이름을 가진 파일 선택
- /myrootdir/project_one///.parquet* ->/myrootdir/project_one/에 있는 두 개의 하위 디렉터리이며 .parquet 파일 확장명이 있는 파일을 선택합니다.
참고: 큰 디렉터리 트리에서 **** 패턴을 사용하면 지나치게 많은 시간을 소비할 수 있습니다. 일반적으로 큰 디렉터리 트리의 경우 glob 패턴에 더 구체적이면 성능이 향상될 수 있습니다.
키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 parquet 파일에서 로드된 형식을 유지합니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.
반환
출력을 TabularDataset로 변환하는 방법에 대한 지침이 포함된 OutputTabularDatasetConfig 인스턴스입니다.
반환 형식
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기