다음을 통해 공유


TransformationMixin 클래스

이 클래스는 출력 데이터 세트에 대한 변환 기능을 제공합니다.

상속
builtins.object
TransformationMixin

생성자

TransformationMixin()

메서드

read_delimited_files

모든 출력을 구분된 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

read_parquet_files

모든 출력을 Parquet 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.

read_delimited_files

모든 출력을 구분된 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

매개 변수

include_path
bool
필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

separator
str
필수

열을 분할하는 데 사용되는 구분 기호입니다.

header
PromoteHeadersBehavior
필수

파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. 기본적으로 모든 파일에 동일한 헤더가 있다고 가정합니다.

partition_format
str
필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 ‘../Accounts/2019/01/01/data.parquet’ 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'는 값이 ‘Accounts’인 문자열 열 ‘Department’와 값이 ‘2019-01-01’인 날짜/시간 열 ‘PartitionDate’를 만듭니다.

path_glob
str
필수

구분된 파일로 읽을 파일을 필터링하는 glob과 같은 패턴입니다. None으로 설정하면 모든 파일을 구분된 파일로 읽게 됩니다.

Glob은 Unix 스타일 경로 이름 패턴 확장(https://docs.python.org/3/library/glob.html)입니다.

예)

  • *.csv ->.csv 파일 확장자를 가진 파일 선택
  • test_.csv* ->test_로 시작되고 .csv 파일 확장자가 있는 파일 이름을 가진 파일 선택
  • /myrootdir/project_one///.txt* ->/myrootdir/project_one/에 있는 두 개의 하위 디렉터리이며 .txt 파일 확장명이 있는 파일을 선택합니다.

참고: 큰 디렉터리 트리에서 **** 패턴을 사용하면 지나치게 많은 시간을 소비할 수 있습니다. 일반적으로 큰 디렉터리 트리의 경우 glob 패턴에 더 구체적이면 성능이 향상될 수 있습니다.

set_column_types
dict[str, DataType]
필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 문자열 형식으로 유지됩니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.

반환

출력을 TabularDataset로 변환하는 방법에 대한 지침이 포함된 OutputTabularDatasetConfig 인스턴스입니다.

반환 형식

read_parquet_files

모든 출력을 Parquet 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

매개 변수

include_path
bool
필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

partition_format
str
필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 ‘../Accounts/2019/01/01/data.parquet’ 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'는 값이 ‘Accounts’인 문자열 열 ‘Department’와 값이 ‘2019-01-01’인 날짜/시간 열 ‘PartitionDate’를 만듭니다.

path_glob
str
필수

parquet 파일로 읽을 파일을 필터링하는 glob과 같은 패턴입니다. None으로 설정하면 모든 파일을 parquet 파일로 읽게 됩니다.

Glob은 Unix 스타일 경로 이름 패턴 확장(https://docs.python.org/3/library/glob.html)입니다.

예)

  • *.parquet ->.parquet 파일 확장자를 가진 파일 선택
  • test_.parquet* ->test_로 시작되고 .parquet 파일 확장자가 있는 파일 이름을 가진 파일 선택
  • /myrootdir/project_one///.parquet* ->/myrootdir/project_one/에 있는 두 개의 하위 디렉터리이며 .parquet 파일 확장명이 있는 파일을 선택합니다.

참고: 큰 디렉터리 트리에서 **** 패턴을 사용하면 지나치게 많은 시간을 소비할 수 있습니다. 일반적으로 큰 디렉터리 트리의 경우 glob 패턴에 더 구체적이면 성능이 향상될 수 있습니다.

set_column_types
dict[str, DataType]
필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 parquet 파일에서 로드된 형식을 유지합니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.

반환

출력을 TabularDataset로 변환하는 방법에 대한 지침이 포함된 OutputTabularDatasetConfig 인스턴스입니다.

반환 형식