TransformationMixin 클래스

참조

이 클래스는 출력 데이터 세트에 대한 변환 기능을 제공합니다.

상속: builtins.object

TransformationMixin

생성자

TransformationMixin()

메서드

read_delimited_files

모든 출력을 구분된 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

read_parquet_files

모든 출력을 Parquet 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.

read_delimited_files

모든 출력을 구분된 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

매개 변수

include_path: bool

필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

separator: str

필수

열을 분할하는 데 사용되는 구분 기호입니다.

header: PromoteHeadersBehavior

필수

파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. 기본적으로 모든 파일에 동일한 헤더가 있다고 가정합니다.

partition_format: str

필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 ‘../Accounts/2019/01/01/data.parquet’ 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'는 값이 ‘Accounts’인 문자열 열 ‘Department’와 값이 ‘2019-01-01’인 날짜/시간 열 ‘PartitionDate’를 만듭니다.

path_glob: str

필수

구분된 파일로 읽을 파일을 필터링하는 glob과 같은 패턴입니다. None으로 설정하면 모든 파일을 구분된 파일로 읽게 됩니다.

Glob은 Unix 스타일 경로 이름 패턴 확장(https://docs.python.org/3/library/glob.html)입니다.

예)

*.csv ->.csv 파일 확장자를 가진 파일 선택
test_.csv* ->test_로 시작되고 .csv 파일 확장자가 있는 파일 이름을 가진 파일 선택
/myrootdir/project_one///.txt* ->/myrootdir/project_one/에 있는 두 개의 하위 디렉터리이며 .txt 파일 확장명이 있는 파일을 선택합니다.

참고: 큰 디렉터리 트리에서 **** 패턴을 사용하면 지나치게 많은 시간을 소비할 수 있습니다. 일반적으로 큰 디렉터리 트리의 경우 glob 패턴에 더 구체적이면 성능이 향상될 수 있습니다.

set_column_types: dict[str, DataType]

필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 문자열 형식으로 유지됩니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.

반환

출력을 TabularDataset로 변환하는 방법에 대한 지침이 포함된 OutputTabularDatasetConfig 인스턴스입니다.

반환 형식

OutputTabularDatasetConfig

read_parquet_files

모든 출력을 Parquet 파일로 읽어 출력 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

매개 변수

include_path: bool

필수

partition_format: str

필수

path_glob: str

필수

parquet 파일로 읽을 파일을 필터링하는 glob과 같은 패턴입니다. None으로 설정하면 모든 파일을 parquet 파일로 읽게 됩니다.

Glob은 Unix 스타일 경로 이름 패턴 확장(https://docs.python.org/3/library/glob.html)입니다.

예)

*.parquet ->.parquet 파일 확장자를 가진 파일 선택
test_.parquet* ->test_로 시작되고 .parquet 파일 확장자가 있는 파일 이름을 가진 파일 선택
/myrootdir/project_one///.parquet* ->/myrootdir/project_one/에 있는 두 개의 하위 디렉터리이며 .parquet 파일 확장명이 있는 파일을 선택합니다.

set_column_types: dict[str, DataType]

필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 parquet 파일에서 로드된 형식을 유지합니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.

반환

출력을 TabularDataset로 변환하는 방법에 대한 지침이 포함된 OutputTabularDatasetConfig 인스턴스입니다.

반환 형식

OutputTabularDatasetConfig

다음을 통해 공유

TransformationMixin 클래스

생성자

메서드

read_delimited_files

매개 변수

반환

반환 형식

read_parquet_files

매개 변수

반환

반환 형식

피드백

피드백

추가 리소스