다음을 통해 공유


OutputTabularDatasetConfig 클래스

실행의 출력을 복사하고 TabularDataset으로 승격하는 방법을 나타냅니다.

OutputTabularDatasetConfig를 초기화합니다.

상속
OutputTabularDatasetConfig

생성자

OutputTabularDatasetConfig(**kwargs)

설명

이 생성자를 직접 호출해서는 안 되며 대신 OutputFileDatasetConfig를 만든 다음 해당 read_* 메서드를 호출하여 이를 OutputTabularDatasetConfig로 변환해야 합니다.

OutputTabularDatasetConfig의 대상에 출력이 복사되는 방식은 OutputFileDatasetConfig와 동일합니다. 이들 간의 차이점은 만들어지는 Dataset이 지정된 모든 변환을 포함하는 TabularDataset이 된다는 것입니다.

메서드

as_input

후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.

as_mount

탑재할 출력 모드를 설정합니다.

탑재 모드의 경우 출력 디렉터리는 FUSE 탑재된 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일이 닫힐 때 업로드됩니다.

as_upload

업로드할 출력 모드를 설정합니다.

업로드 모드의 경우 출력 디렉터리에 작성된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.

drop_columns

데이터 세트에서 지정한 열을 삭제합니다.

keep_columns

지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.

결과 출력 구성은 이름이 변경되고 첫 번째 구성에는 이름에 _1이 추가되고 두 번째 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 이름을 수동으로 설정합니다.

as_input

후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.

as_input(name=None)

매개 변수

Name Description
name
필수
str

실행과 관련된 입력의 이름입니다.

반환

형식 Description

입력 데이터를 전달하는 방법을 설명하는 DatasetConsumptionConfig 인스턴스입니다.

as_mount

탑재할 출력 모드를 설정합니다.

탑재 모드의 경우 출력 디렉터리는 FUSE 탑재된 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일이 닫힐 때 업로드됩니다.

as_mount()

반환

형식 Description

모드가 탑재로 설정된 OutputTabularDatasetConfig 인스턴스입니다.

as_upload

업로드할 출력 모드를 설정합니다.

업로드 모드의 경우 출력 디렉터리에 작성된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.

as_upload(overwrite=False, source_globs=None)

매개 변수

Name Description
overwrite
필수

대상에 이미 존재하는 파일을 덮어쓸지 여부를 나타냅니다.

source_globs
필수

업로드할 파일을 필터링하는 데 사용되는 글로브 패턴입니다.

반환

형식 Description

업로드 모드가 설정된 OutputTabularDatasetConfig 인스턴스입니다.

drop_columns

데이터 세트에서 지정한 열을 삭제합니다.

drop_columns(columns)

매개 변수

Name Description
columns
필수

삭제할 열의 이름 또는 이름 목록입니다.

반환

형식 Description

열을 삭제할 OutputTabularDatasetConfig 인스턴스입니다.

keep_columns

지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.

keep_columns(columns)

매개 변수

Name Description
columns
필수

유지할 열의 이름 또는 이름 목록입니다.

반환

형식 Description

열을 유지할 OutputTabularDatasetConfig 인스턴스입니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.

결과 출력 구성은 이름이 변경되고 첫 번째 구성에는 이름에 _1이 추가되고 두 번째 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 이름을 수동으로 설정합니다.

random_split(percentage, seed=None)

매개 변수

Name Description
percentage
필수

데이터 세트를 분할할 대략적인 백분율입니다. 이는 0.0에서 1.0 사이의 숫자여야 합니다.

seed
필수
int

난수 생성기에 사용할 선택적 시드입니다.

반환

형식 Description

분할 후 두 데이터 세트를 나타내는 두 개의 OutputTabularDatasetConfig 개체의 튜플을 반환합니다.