PipelineOutputFileDataset 클래스

참조

Azure Machine Learning 파일 데이터 세트로 승격된 중간 파이프라인 데이터를 나타냅니다.

중간 데이터가 Azure Machine Learning 데이터 집합으로 승격되면 후속 단계에서 DataReference 대신 데이터 집합으로도 이용됩니다.

Azure Machine Learning 데이터 세트로 승격될 중간 데이터를 만듭니다.

상속: PipelineOutputAbstractDataset

PipelineOutputFileDataset

생성자

PipelineOutputFileDataset(pipeline_data)

매개 변수

pipeline_data: PipelineData

필수

데이터 세트로 승격될 중간 출력을 나타내는 PipelineData입니다.

pipeline_data: PipelineData

필수

데이터 세트로 승격될 중간 출력을 나타내는 PipelineData입니다.

메서드

as_direct	전달할 데이터 세트의 소비 모드로 설정합니다. 이 모드에서는 데이터 세트의 ID를 가져오고 스크립트에서 Dataset.get_by_id를 호출하여 데이터 세트를 검색할 수 있습니다. run.input_datasets['{dataset_name}']은 데이터 세트를 반환합니다.
as_download	다운로드할 데이터 세트의 소비 모드로 설정합니다.
as_mount	탑재할 데이터 세트의 소비 모드로 설정합니다.
parse_delimited_files	중간 파일 데이터 세트를 테이블 형식 데이터 세트로 변환합니다. 테이블 형식 데이터 세트는 중간 출력이 가리키는 구분된 파일을 구문 분석하여 만듭니다.
parse_parquet_files	중간 파일 데이터 세트를 테이블 형식 데이터 세트로 변환합니다. 테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.

as_direct

전달할 데이터 세트의 소비 모드로 설정합니다.

이 모드에서는 데이터 세트의 ID를 가져오고 스크립트에서 Dataset.get_by_id를 호출하여 데이터 세트를 검색할 수 있습니다. run.input_datasets['{dataset_name}']은 데이터 세트를 반환합니다.

as_direct()

반환

수정된 PipelineOutputDataset입니다.

반환 형식

PipelineOutputFileDataset

as_download

다운로드할 데이터 세트의 소비 모드로 설정합니다.

as_download(path_on_compute=None)

매개 변수

path_on_compute: str

기본값: None

데이터 세트를 다운로드할 컴퓨팅의 경로입니다. 기본값은 Azure Machine Learning이 자동으로 경로를 선택하는 None입니다.

반환

수정된 PipelineOutputDataset입니다.

반환 형식

PipelineOutputFileDataset

as_mount

탑재할 데이터 세트의 소비 모드로 설정합니다.

as_mount(path_on_compute=None)

매개 변수

path_on_compute: str

기본값: None

데이터 세트를 탑재할 컴퓨팅의 경로입니다. 기본값은 Azure Machine Learning이 자동으로 경로를 선택하는 None입니다.

반환

수정된 PipelineOutputDataset입니다.

반환 형식

PipelineOutputFileDataset

parse_delimited_files

중간 파일 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

테이블 형식 데이터 세트는 중간 출력이 가리키는 구분된 파일을 구문 분석하여 만듭니다.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

매개 변수

include_path: bool

기본값: False

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

separator: str

기본값: ,

열을 분할하는 데 사용되는 구분 기호입니다.

header: PromoteHeadersBehavior

기본값: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. 기본적으로 모든 파일에 동일한 헤더가 있다고 가정합니다.

partition_format: str

기본값: None

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.csv' 경로에서 파티션은 부서 이름 및 시간 기준이고, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.csv' 'Department'는 값이 'Accounts'이고 날짜/시간 열 'PartitionDate'는 값이 '2019-01-01'입니다.

file_extension: str

필수

읽을 파일의 파일 확장명입니다. 디렉터리에서 이 확장이 있는 파일만 읽습니다. 구분 기호가 ','이면 기본값은 '.csv'이고, 구분 기호가 탭이면 '.tsv'이고, 그렇지 않으면 None입니다. None이 전달되면 확장명에 관계없이(또는 확장명이 없더라도) 모든 파일을 읽습니다.

set_column_types: dict[str, DataType]

기본값: None

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 문자열 형식으로 유지됩니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.

quoted_line_breaks: bool

기본값: False

따옴표 안의 새 줄 바꿈 문자를 처리할지 여부를 나타냅니다. 이 옵션은 성능에 영향을 미칠 수 있습니다.

반환

테이블 형식 데이터 세트가 될 중간 데이터를 반환합니다.

반환 형식

PipelineOutputTabularDataset

설명

이 변환은 중간 데이터가 후속 단계의 입력으로 사용되는 경우에만 적용됩니다. 출력에 전달되더라도 출력에는 영향을 주지 않습니다.

parse_parquet_files

중간 파일 데이터 세트를 테이블 형식 데이터 세트로 변환합니다.

테이블 형식 데이터 세트는 중간 출력이 가리키는 parquet 파일을 구문 분석하여 만듭니다.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

매개 변수

include_path: bool

기본값: False

partition_format: str

기본값: None

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 '../Accounts/2019/01/01/data.parquet' 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet'는 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

file_extension: str

기본값: .parquet

읽을 파일의 파일 확장명입니다. 디렉터리에서 이 확장이 있는 파일만 읽습니다. 기본값은 '.parquet'입니다. None으로 설정하면 확장명에 관계없이(또는 확장명이 없더라도) 모든 파일을 읽습니다.

set_column_types: dict[str, DataType]

기본값: None

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. 사전에 없는 열은 parquet 파일에서 로드된 형식을 유지합니다. None을 전달하면 변환이 발생하지 않습니다. 원본 데이터에서 찾을 수 없는 열의 항목은 오류를 발생시키지 않으며 무시됩니다.

반환

테이블 형식 데이터 세트가 될 중간 데이터를 반환합니다.

반환 형식

PipelineOutputTabularDataset

설명

이 변환은 중간 데이터가 후속 단계의 입력으로 사용되는 경우에만 적용됩니다. 출력에 전달되더라도 출력에는 영향을 주지 않습니다.

PipelineOutputFileDataset 클래스

생성자

매개 변수

메서드

as_direct

반환

반환 형식

as_download

매개 변수

반환

반환 형식

as_mount

매개 변수

반환

반환 형식

parse_delimited_files

매개 변수

반환

반환 형식

설명

parse_parquet_files

매개 변수

반환

반환 형식

설명

피드백

피드백

추가 리소스