AbstractDataset 클래스

Azure Machine Learning의 데이터 세트 기본 클래스입니다.

데이터 집합의 인스턴스를 만들려면 TabularDatasetFactory 클래스 및 FileDatasetFactory 클래스를 참조하세요.

클래스 AbstractDataset 생성자입니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스 및 FileDatasetFactory 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.

상속
builtins.object
AbstractDataset

생성자

AbstractDataset()

메서드

add_tags

이 데이터 세트의 태그 사전에 키 값 쌍을 추가합니다.

as_named_input

실행 시 구체화된 데이터 세트를 검색하는 데 사용할 이 데이터 세트의 이름을 제공합니다.

get_all

작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.

get_by_id

작업 영역에 저장된 데이터 세트를 가져옵니다.

get_by_name

작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다.

get_partition_key_values

partition_keys 고유 키 값을 반환합니다.

partition_keys가 전체 파티션 키 집합의 유효한 하위 집합인지 확인하고, partition_keys의 고유 키 값을 반환하고, partition_keys가 None인 경우 이 데이터 세트의 전체 파티션 키 집합을 가져와서 고유 키 조합을 반환합니다.


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

제공된 작업 영역에 데이터 세트를 등록합니다.

remove_tags

이 데이터 세트의 태그 사전에서 지정된 키를 제거합니다.

unregister_all_versions

작업 영역에서 이 데이터 세트의 등록 이름 아래에 있는 모든 버전을 등록 취소합니다.

update

데이터 세트의 전체 업데이트를 수행합니다.

add_tags

이 데이터 세트의 태그 사전에 키 값 쌍을 추가합니다.

add_tags(tags=None)

매개 변수

tags
dict[str, str]
필수

추가할 태그의 사전입니다.

반환

업데이트된 데이터 세트 개체입니다.

반환 형식

as_named_input

실행 시 구체화된 데이터 세트를 검색하는 데 사용할 이 데이터 세트의 이름을 제공합니다.

as_named_input(name)

매개 변수

name
str
필수

실행할 데이터 세트의 이름입니다.

반환

실행 시 데이터 세트를 구체화하는 방법을 설명하는 구성 개체입니다.

반환 형식

설명

이 이름은 Azure Machine Learning 실행 내에서만 적용됩니다. 환경 변수로 사용할 수 있도록 이름에는 영숫자 및 밑줄 문자만 포함되어야 합니다. 이 이름을 사용하여 다음 두 가지 방법으로 실행 컨텍스트에서 데이터 세트를 검색할 수 있습니다.

  • 환경 변수:

    이름은 환경 변수 이름이고 구체화된 데이터 세트는 환경 변수의 값으로 사용할 수 있게 됩니다. 데이터 세트를 다운로드하거나 탑재하면 값은 다운로드된/탑재된 경로가 됩니다. 예를 들면 다음과 같습니다.


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

참고

데이터 세트가 직접 모드로 설정된 경우 값은 데이터 세트 ID가 됩니다. 그런 다음, 아래의 작업을 수행할 수 있습니다.

Dataset.get_by_id(os.environ[‘foo’])를 수행하여 데이터 세트 개체를 검색합니다.

  • Run.input_datasets:

    키는 이 메서드에서 지정한 데이터 세트 이름이 되고 값은 구체화된 데이터 세트가 되는 사전입니다. 다운로드 및 탑재된 데이터 세트의 경우 값은 다운로드된/탑재된 경로가 됩니다. 직접 모드의 경우 값은 작업 제출 스크립트에서 지정한 것과 동일한 데이터 세트 개체가 됩니다.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.

static get_all(workspace)

매개 변수

workspace
Workspace
필수

데이터 세트가 등록된 기존 AzureML 작업 영역입니다.

반환

등록 이름으로 키가 지정된 TabularDataset 및 FileDataset 개체의 사전입니다.

반환 형식

get_by_id

작업 영역에 저장된 데이터 세트를 가져옵니다.

static get_by_id(workspace, id, **kwargs)

매개 변수

workspace
Workspace
필수

데이터 세트가 저장된 기존 AzureML 작업 영역입니다.

id
str
필수

데이터 세트의 ID입니다.

반환

데이터 세트 개체입니다. 데이터 세트가 등록되면 등록 이름 및 버전도 반환됩니다.

반환 형식

get_by_name

작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다.

static get_by_name(workspace, name, version='latest', **kwargs)

매개 변수

workspace
Workspace
필수

데이터 세트가 등록된 기존 AzureML 작업 영역입니다.

name
str
필수

등록 이름입니다.

version
int
필수

등록 버전입니다. 기본값은 'latest'입니다.

반환

등록된 데이터 세트 개체입니다.

반환 형식

get_partition_key_values

partition_keys 고유 키 값을 반환합니다.

partition_keys가 전체 파티션 키 집합의 유효한 하위 집합인지 확인하고, partition_keys의 고유 키 값을 반환하고, partition_keys가 None인 경우 이 데이터 세트의 전체 파티션 키 집합을 가져와서 고유 키 조합을 반환합니다.


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

매개 변수

partition_keys
list[str]
필수

파티션 키

register

제공된 작업 영역에 데이터 세트를 등록합니다.

register(workspace, name, description=None, tags=None, create_new_version=False)

매개 변수

workspace
Workspace
필수

데이터 세트를 등록할 작업 영역입니다.

name
str
필수

데이터 세트를 등록할 이름입니다.

description
str
필수

데이터 세트에 대한 설명입니다. 기본값은 None입니다.

tags
dict[str, str]
필수

데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

create_new_version
bool
필수

데이터 세트를 지정된 이름의 새 버전으로 등록하는 부울입니다.

반환

등록된 데이터 세트 개체입니다.

반환 형식

remove_tags

이 데이터 세트의 태그 사전에서 지정된 키를 제거합니다.

remove_tags(tags=None)

매개 변수

tags
list[str]
필수

제거할 키 목록입니다.

반환

업데이트된 데이터 세트 개체입니다.

반환 형식

unregister_all_versions

작업 영역에서 이 데이터 세트의 등록 이름 아래에 있는 모든 버전을 등록 취소합니다.

unregister_all_versions()

설명

이 작업은 원본 데이터를 변경하지 않습니다.

update

데이터 세트의 전체 업데이트를 수행합니다.

update(description=None, tags=None)

매개 변수

description
str
필수

데이터 세트에 사용할 새 설명입니다. 이 설명은 기존 설명을 대체합니다. 기본값은 기존 설명입니다. 설명을 지우려면 빈 문자열을 입력합니다.

tags
dict[str, str]
필수

데이터 세트를 업데이트할 태그 사전입니다. 이러한 태그는 데이터 세트의 기존 태그를 대체합니다. 기본값은 기존 태그입니다. 태그를 지우려면 빈 사전을 입력합니다.

반환

업데이트된 데이터 세트 개체입니다.

반환 형식

특성

data_changed_time

원본 데이터 변경 시간을 반환합니다.

반환

가장 최근에 원본 데이터가 변경된 시간입니다.

반환 형식

설명

데이터 변경 시간은 파일 기반 데이터 원본에 사용할 수 있습니다. 변경 시간을 확인할 수 있는 데이터 원본이 지원되지 않으면 아무 것도 반환되지 않습니다.

description

등록 설명을 반환합니다.

반환

데이터 세트 설명입니다.

반환 형식

str

id

데이터 세트의 ID를 반환합니다.

반환

데이터 세트 ID입니다. 데이터 세트가 작업 영역에 저장되지 않은 경우 ID는 None이 됩니다.

반환 형식

str

name

등록 이름을 반환합니다.

반환

데이터 세트 이름입니다.

반환 형식

str

partition_keys

파티션 키를 반환합니다.

반환

파티션 키

반환 형식

tags

등록 태그를 반환합니다.

반환

데이터 세트 태그입니다.

반환 형식

str

version

등록 버전을 반환합니다.

반환

데이터 세트 버전입니다.

반환 형식

int