OutputTabularDatasetConfig 클래스
실행의 출력을 복사하고 TabularDataset으로 승격하는 방법을 나타냅니다.
OutputTabularDatasetConfig를 초기화합니다.
- 상속
-
OutputTabularDatasetConfig
생성자
OutputTabularDatasetConfig(**kwargs)
설명
이 생성자를 직접 호출해서는 안 되며 대신 OutputFileDatasetConfig를 만든 다음 해당 read_* 메서드를 호출하여 이를 OutputTabularDatasetConfig로 변환해야 합니다.
OutputTabularDatasetConfig의 대상에 출력이 복사되는 방식은 OutputFileDatasetConfig와 동일합니다. 이들 간의 차이점은 만들어지는 Dataset이 지정된 모든 변환을 포함하는 TabularDataset이 된다는 것입니다.
메서드
as_input |
후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다. |
as_mount |
탑재할 출력 모드를 설정합니다. 탑재 모드의 경우 출력 디렉터리는 FUSE 탑재된 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일이 닫힐 때 업로드됩니다. |
as_upload |
업로드할 출력 모드를 설정합니다. 업로드 모드의 경우 출력 디렉터리에 작성된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다. |
drop_columns |
데이터 세트에서 지정한 열을 삭제합니다. |
keep_columns |
지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다. |
random_split |
데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다. 결과 출력 구성은 이름이 변경되고 첫 번째 구성에는 이름에 _1이 추가되고 두 번째 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 이름을 수동으로 설정합니다. |
as_input
후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.
as_input(name=None)
매개 변수
Name | Description |
---|---|
name
필수
|
실행과 관련된 입력의 이름입니다. |
반환
형식 | Description |
---|---|
입력 데이터를 전달하는 방법을 설명하는 DatasetConsumptionConfig 인스턴스입니다. |
as_mount
탑재할 출력 모드를 설정합니다.
탑재 모드의 경우 출력 디렉터리는 FUSE 탑재된 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일이 닫힐 때 업로드됩니다.
as_mount()
반환
형식 | Description |
---|---|
모드가 탑재로 설정된 OutputTabularDatasetConfig 인스턴스입니다. |
as_upload
업로드할 출력 모드를 설정합니다.
업로드 모드의 경우 출력 디렉터리에 작성된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.
as_upload(overwrite=False, source_globs=None)
매개 변수
Name | Description |
---|---|
overwrite
필수
|
대상에 이미 존재하는 파일을 덮어쓸지 여부를 나타냅니다. |
source_globs
필수
|
업로드할 파일을 필터링하는 데 사용되는 글로브 패턴입니다. |
반환
형식 | Description |
---|---|
업로드 모드가 설정된 OutputTabularDatasetConfig 인스턴스입니다. |
drop_columns
데이터 세트에서 지정한 열을 삭제합니다.
drop_columns(columns)
매개 변수
Name | Description |
---|---|
columns
필수
|
삭제할 열의 이름 또는 이름 목록입니다. |
반환
형식 | Description |
---|---|
열을 삭제할 OutputTabularDatasetConfig 인스턴스입니다. |
keep_columns
지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.
keep_columns(columns)
매개 변수
Name | Description |
---|---|
columns
필수
|
유지할 열의 이름 또는 이름 목록입니다. |
반환
형식 | Description |
---|---|
열을 유지할 OutputTabularDatasetConfig 인스턴스입니다. |
random_split
데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.
결과 출력 구성은 이름이 변경되고 첫 번째 구성에는 이름에 _1이 추가되고 두 번째 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 이름을 수동으로 설정합니다.
random_split(percentage, seed=None)
매개 변수
Name | Description |
---|---|
percentage
필수
|
데이터 세트를 분할할 대략적인 백분율입니다. 이는 0.0에서 1.0 사이의 숫자여야 합니다. |
seed
필수
|
난수 생성기에 사용할 선택적 시드입니다. |
반환
형식 | Description |
---|---|
분할 후 두 데이터 세트를 나타내는 두 개의 OutputTabularDatasetConfig 개체의 튜플을 반환합니다. |