AbstractDataset 클래스

Azure Machine Learning의 기본 데이터 세트 클래스입니다.

클래스 및 TabularDatasetFactory 클래스를 참조 FileDatasetFactory 하여 데이터 세트의 인스턴스를 만듭니다.

Class AbstractDataset 생성자입니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스 및 TabularDatasetFactory 클래스를 사용하여 FileDatasetFactory 생성됩니다.

생성자

AbstractDataset()

메서드

add_tags	이 데이터 세트의 태그 사전에 키 값 쌍을 추가합니다.
as_named_input	실행에서 구체화된 데이터 세트를 검색하는 데 사용할 이 데이터 세트의 이름을 제공합니다.
get_all	작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.
get_by_id	작업 영역에 저장된 데이터 세트를 가져옵니다.
get_by_name	등록 이름으로 작업 영역에서 등록된 데이터 세트를 가져옵니다.
get_partition_key_values	partition_keys 고유 키 값을 반환합니다. partition_keys 전체 파티션 키 집합의 유효한 하위 집합인지 확인하고, partition_keys 고유 키 값을 반환하고, partition_keys 없음인 경우 이 데이터 세트의 전체 파티션 키 집합을 가져와서 고유 키 조합을 반환합니다. `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	제공된 작업 영역에 데이터 세트를 등록합니다.
remove_tags	이 데이터 세트의 태그 사전에서 지정된 키를 제거합니다.
unregister_all_versions	작업 영역에서 이 데이터 세트의 등록 이름 아래에 있는 모든 버전을 등록 취소합니다.
update	데이터 세트의 현재 위치 업데이트를 수행합니다.

add_tags

이 데이터 세트의 태그 사전에 키 값 쌍을 추가합니다.

add_tags(tags=None)

매개 변수

Name	Description
tags 필수	dict[str, str] 추가할 태그의 사전입니다.

반환

형식	Description
Union[TabularDataset, FileDataset]	업데이트된 데이터 세트 개체입니다.

as_named_input

실행에서 구체화된 데이터 세트를 검색하는 데 사용할 이 데이터 세트의 이름을 제공합니다.

as_named_input(name)

매개 변수

Name	Description
name 필수	str 실행에 대한 데이터 세트의 이름입니다.

반환

형식	Description
DatasetConsumptionConfig	실행 시 데이터 세트를 구체화하는 방법을 설명하는 구성 개체입니다.

설명

이 이름은 Azure Machine Learning 실행 내에서만 적용됩니다. 이름에는 영숫자 및 밑줄 문자만 포함되어야 환경 변수로 사용할 수 있습니다. 이 이름을 사용하여 다음 두 가지 방법을 사용하여 실행 컨텍스트에서 데이터 세트를 검색할 수 있습니다.

환경 변수:

이름은 환경 변수 이름이고 구체화된 데이터 세트는 환경 변수의 값으로 사용할 수 있게 됩니다. 데이터 세트를 다운로드하거나 탑재하는 경우 값은 다운로드/탑재된 경로가 됩니다. 다음은 그 예입니다.


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

비고

데이터 세트가 직접 모드로 설정된 경우 값은 데이터 세트 ID가 됩니다. 다음을 수행할 수 있습니다.

Dataset.get_by_id(os.environ['foo'])를 수행하여 데이터 세트 개체를 검색합니다.

Run.input_datasets:

키가 이 메서드에서 지정한 데이터 세트 이름이 되고 값이 구체화된 데이터 세트가 되는 사전입니다. 다운로드 및 탑재된 데이터 세트의 경우 값은 다운로드/탑재된 경로가 됩니다. 직접 모드의 경우 값은 작업 제출 스크립트에서 지정한 것과 동일한 데이터 세트 개체가 됩니다.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.

static get_all(workspace)

매개 변수

Name	Description
workspace 필수	Workspace 데이터 세트가 등록된 기존 AzureML 작업 영역입니다.

반환

형식	Description
dict[str, Union[TabularDataset, FileDataset]]	등록 이름으로 키가 지정된 TabularDataset 및 FileDataset 개체의 사전입니다.

get_by_id

작업 영역에 저장된 데이터 세트를 가져옵니다.

static get_by_id(workspace, id, **kwargs)

매개 변수

Name	Description
workspace 필수	Workspace 데이터 세트가 저장되는 기존 AzureML 작업 영역입니다.
id 필수	str 데이터 세트의 ID입니다.

반환

형식	Description
Union[TabularDataset, FileDataset]	데이터 세트 개체입니다. 데이터 세트가 등록되면 등록 이름 및 버전도 반환됩니다.

get_by_name

등록 이름으로 작업 영역에서 등록된 데이터 세트를 가져옵니다.

static get_by_name(workspace, name, version='latest', **kwargs)

매개 변수

Name	Description
workspace 필수	Workspace 데이터 세트가 등록된 기존 AzureML 작업 영역입니다.
name 필수	str 등록 이름입니다.
version 필수	int 등록 버전입니다. 기본값은 'latest'입니다.

반환

형식	Description
Union[TabularDataset, FileDataset]	등록된 데이터 세트 개체입니다.

get_partition_key_values

partition_keys 고유 키 값을 반환합니다.

partition_keys 전체 파티션 키 집합의 유효한 하위 집합인지 확인하고, partition_keys 고유 키 값을 반환하고, partition_keys 없음인 경우 이 데이터 세트의 전체 파티션 키 집합을 가져와서 고유 키 조합을 반환합니다.


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

매개 변수

Name	Description
partition_keys 필수	list[str] 파티션 키

register

제공된 작업 영역에 데이터 세트를 등록합니다.

register(workspace, name, description=None, tags=None, create_new_version=False)

매개 변수

Name	Description
workspace 필수	Workspace 데이터 세트를 등록할 작업 영역입니다.
name 필수	str 데이터 세트를 등록할 이름입니다.
description 필수	str 데이터 세트에 대한 텍스트 설명입니다. 기본값은 없음입니다.
tags 필수	dict[str, str] 데이터 세트를 제공할 키 값 태그의 사전입니다. 기본값은 없음입니다.
create_new_version 필수	bool 데이터 세트를 지정된 이름 아래에 새 버전으로 등록하려면 부울입니다.

반환

형식	Description
Union[TabularDataset, FileDataset]	등록된 데이터 세트 개체입니다.

remove_tags

이 데이터 세트의 태그 사전에서 지정된 키를 제거합니다.

remove_tags(tags=None)

매개 변수

Name	Description
tags 필수	list[str] 제거할 키 목록입니다.

반환

형식	Description
Union[TabularDataset, FileDataset]	업데이트된 데이터 세트 개체입니다.

unregister_all_versions

작업 영역에서 이 데이터 세트의 등록 이름 아래에 있는 모든 버전을 등록 취소합니다.

unregister_all_versions()

설명

이 작업은 원본 데이터를 변경하지 않습니다.

update

데이터 세트의 현재 위치 업데이트를 수행합니다.

update(description=None, tags=None)

매개 변수

Name	Description
description 필수	str 데이터 세트에 사용할 새 설명입니다. 이 설명은 기존 설명을 대체합니다. 기본값은 기존 설명입니다. 설명을 지우려면 빈 문자열을 입력합니다.
tags 필수	dict[str, str] 데이터 세트를 업데이트할 태그 사전입니다. 이러한 태그는 데이터 세트의 기존 태그를 대체합니다. 기본값은 기존 태그입니다. 태그를 지우려면 빈 사전을 입력합니다.

반환

형식	Description
Union[TabularDataset, FileDataset]	업데이트된 데이터 세트 개체입니다.

특성

data_changed_time

원본 데이터 변경 시간을 반환합니다.

반환

형식	Description
datetime	가장 최근의 변경 내용이 원본 데이터에 발생한 시간입니다.

설명

변경된 데이터 시간은 파일 기반 데이터 원본에 사용할 수 있습니다. 변경이 발생한 시기를 확인하기 위해 데이터 원본이 지원되지 않는 경우 아무도 반환되지 않습니다.

description

등록 설명을 반환합니다.

반환

형식	Description
str	데이터 세트 설명입니다.

id

데이터 세트의 식별자를 반환합니다.

반환

형식	Description
str	데이터 세트 ID입니다. 데이터 세트가 작업 영역에 저장되지 않은 경우 ID는 None이 됩니다.

name

등록 이름을 반환합니다.

반환

형식	Description
str	데이터 세트 이름입니다.

partition_keys

파티션 키를 반환합니다.

반환

형식	Description
list[str]	파티션 키

형식	Description
str	데이터 세트 태그.

version

등록 버전을 반환합니다.

반환

형식	Description
int	데이터 세트 버전입니다.

피드백

이 페이지가 도움이 되었나요?

다음을 통해 공유

AbstractDataset 클래스

생성자

메서드

add_tags

매개 변수

반환

as_named_input

매개 변수

반환

설명

get_all

매개 변수

반환

get_by_id

매개 변수

반환

get_by_name

매개 변수

반환

get_partition_key_values

매개 변수

register

매개 변수

반환

remove_tags

매개 변수

반환

unregister_all_versions

설명

update

매개 변수

반환

특성

data_changed_time

반환

설명

description

반환

id

반환

name

반환

partition_keys

반환

tags

반환

version

반환

피드백