Dataset 클래스

Azure Machine Learning에서 데이터를 탐색, 변환, 관리하는 데 사용되는 리소스를 나타냅니다.

데이터 세트는 Datastore에 있거나 퍼블릭 웹 URL 뒤에 있는 데이터에 대한 참조입니다.

이 클래스에서 사용되지 않는 메서드는 향상된 API의 AbstractDataset 클래스를 확인하세요.

지원되는 데이터 세트 형식은 다음과 같습니다.

  • TabularDataset는 제공된 파일 또는 파일 목록을 구문 분석하여 만든 데이터를 테이블 형식으로 나타냅니다.

  • FileDataset는 데이터 저장소 또는 공개 URL에서 하나 또는 여러 파일을 참조합니다.

데이터 세트를 시작하려면 데이터 세트 등록 & 추가 문서를 참조하거나 Notebook 및 를 참조하세요 https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebook.

데이터 세트 개체를 초기화합니다.

작업 영역에 이미 등록된 데이터 세트를 가져오려면 get 메서드를 사용합니다.

상속
builtins.object
Dataset

생성자

Dataset(definition, workspace=None, name=None, id=None)

매개 변수

definition
<xref:azureml.data.DatasetDefinition>
필수

데이터 세트 정의입니다.

workspace
Workspace
필수

데이터 세트가 있는 작업 영역입니다.

name
str
필수

데이터 세트의 이름입니다.

id
str
필수

데이터 세트의 고유 식별자입니다.

설명

Dataset 클래스는 해당 팩터리 메서드로 작업하지 않고도 Dataset를 만드는 데 사용할 수 있는 두 가지 편의 클래스 특성(FileTabular)을 노출합니다. 예를 들어 다음 특성을 사용하여 데이터 세트를 만들려면 다음을 수행합니다.

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

TabularDatasetFactoryFileDatasetFactory에 정의된 클래스의 해당 팩터리 메서드를 직접 호출하여 새로운 TabularDataset 또는 FileDataset를 만들 수도 있습니다.

다음 예제에서는 데이터 저장소의 단일 경로를 가리키는 TabularDataset를 만드는 방법을 보여 줍니다.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

전체 샘플은 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb에서 사용할 수 있습니다.

변수

azureml.core.Dataset.File

새 FileDataset 개체를 만들기 위한 FileDatasetFactory 메서드에 대한 액세스를 제공하는 클래스 특성입니다. 사용법: Dataset.File.from_files().

azureml.core.Dataset.Tabular

새 TabularDataset 개체를 만들기 위한 TabularDatasetFactory 메서드에 대한 액세스를 제공하는 클래스 특성입니다. 사용법: Dataset.Tabular.from_delimited_files().

메서드

archive

활성 또는 사용되지 않는 데이터 세트를 보관합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

auto_read_files

지정된 경로의 파일을 분석하고 새 데이터 세트를 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular.from_* 메서드를 사용하여 파일을 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

compare_profiles

현재 데이터 세트의 프로필을 다른 데이터 세트 프로필과 비교합니다.

두 데이터 세트의 차이점을 요약 통계로 보여 줍니다. 'rhs_dataset' 매개 변수는 "오른쪽"을 의미하며 단순히 두 번째 데이터 세트입니다. 첫 번째 데이터 세트(현재 데이터 세트 개체)는 "왼쪽"으로 간주합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

create_snapshot

등록된 데이터 세트의 스냅샷을 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

delete_snapshot

이름을 기준으로 데이터 세트의 스냅샷을 삭제합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

deprecate

작업 영역의 활성 데이터 세트를 다른 데이터 세트로 사용 중단합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

diff

rhs_dataset를 사용하여 현재 데이터 세트를 비교합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

from_binary_files

이진 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.File.from_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

from_delimited_files

구분된 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_delimited_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Excel 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

from_json_files

JSON 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_json_lines_files를 사용하여 JSON 라인 파일에서 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

from_pandas_dataframe

pandas 데이터 프레임에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.register_pandas_dataframe을 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

from_parquet_files

parquet 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_parquet_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

from_sql_query

SQL 쿼리에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_sql_query를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

generate_profile

데이터 세트에 대한 새 프로필을 생성합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get

이름이나 ID를 지정하여 작업 영역에 이미 존재하는 데이터 세트를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 get_by_nameget_by_id를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_all

작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.

get_all_snapshots

데이터 세트의 모든 스냅샷을 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_by_id

작업 영역에 저장된 데이터 세트를 가져옵니다.

get_by_name

작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다.

get_definition

데이터 세트의 특정 정의를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_definitions

데이터 세트의 모든 정의를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_profile

이전에 컴퓨팅된 데이터 세트에 대한 요약 통계를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_snapshot

이름으로 데이터 세트의 스냅샷을 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

head

이 데이터 세트에서 지정한 레코드 수를 끌어와서 DataFrame으로 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

list

is_visible 속성이 False인 데이터 세트를 포함하여 작업 영역의 모든 데이터 세트를 나열합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 get_all를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

reactivate

보관되거나 사용되지 않는 데이터 세트를 다시 활성화합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

register

작업 영역의 다른 사용자가 사용할 수 있도록 데이터 세트를 작업 영역에 등록합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 register를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

sample

제공된 샘플링 전략 및 매개 변수를 사용하여 원본 데이터 세트에서 새 샘플을 생성합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 take_sample 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

to_pandas_dataframe

이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_pandas_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

to_spark_dataframe

이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark DataFrame을 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_spark_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

update

작업 영역에서 데이터 세트 변경 가능 특성을 업데이트하고 작업 영역에서 업데이트된 데이터 세트를 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

update_definition

데이터 세트 정의를 업데이트합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

archive

활성 또는 사용되지 않는 데이터 세트를 보관합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

archive()

반환

없음

반환 형식

설명

보관 후, 데이터 세트를 사용하려고 하면 오류가 발생합니다. 실수로 보관한 경우 다시 활성화하면 활성화됩니다.

auto_read_files

지정된 경로의 파일을 분석하고 새 데이터 세트를 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular.from_* 메서드를 사용하여 파일을 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static auto_read_files(path, include_path=False, partition_format=None)

매개 변수

path
DataReference 또는 str
필수

등록된 데이터 저장소의 데이터 경로, 로컬 경로 또는 HTTP URL(CSV/TSV)입니다.

include_path
bool
필수

데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽을 때와 특정 레코드가 시작된 파일을 알고 싶을 때 유용합니다. 열에 넣고 싶은 정보가 파일 경로 또는 이름에 있는 경우에도 유용합니다.

partition_format
str
필수

경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.csv'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다.

반환

데이터 세트 개체입니다.

반환 형식

설명

파일 형식 및 구분 기호를 자동으로 검색하려면 이 메서드를 사용합니다.

데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다.

반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.

compare_profiles

현재 데이터 세트의 프로필을 다른 데이터 세트 프로필과 비교합니다.

두 데이터 세트의 차이점을 요약 통계로 보여 줍니다. 'rhs_dataset' 매개 변수는 "오른쪽"을 의미하며 단순히 두 번째 데이터 세트입니다. 첫 번째 데이터 세트(현재 데이터 세트 개체)는 "왼쪽"으로 간주합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

매개 변수

rhs_dataset
Dataset
필수

"오른쪽" 데이터 세트라고도 하는 두 번째 데이터 세트는 비교를 위한 데이터 세트입니다.

profile_arguments
dict
필수

특정 프로필을 검색하기 위한 인수입니다.

include_columns
list[str]
필수

비교에 포함할 열 이름 목록입니다.

exclude_columns
list[str]
필수

비교에서 제외할 열 이름 목록입니다.

histogram_compare_method
HistogramCompareMethod
필수

비교 메서드를 설명하는 열거형입니다(예: Wasserstein 또는 Energy).

반환

두 데이터 세트 프로필 간의 차이점입니다.

반환 형식

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

설명

등록된 데이터 세트에만 해당됩니다. 현재 데이터 세트의 프로필이 없으면 예외를 발생시킵니다. 등록되지 않은 데이터 세트에는 profile.compare 메서드를 사용합니다.

create_snapshot

등록된 데이터 세트의 스냅샷을 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

매개 변수

snapshot_name
str
필수

스냅샷 이름입니다. 스냅샷 이름은 데이터 세트 내에서 고유해야 합니다.

compute_target
Union[ComputeTarget, str]
필수

스냅샷 프로필 만들기를 수행할 선택적 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다.

create_data_snapshot
bool
필수

True이면 데이터의 구체화된 복사본이 만들어집니다.

target_datastore
Union[AbstractAzureStorageDatastore, str]
필수

스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다.

반환

데이터 세트 스냅샷 개체입니다.

반환 형식

설명

스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.

delete_snapshot

이름을 기준으로 데이터 세트의 스냅샷을 삭제합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

delete_snapshot(snapshot_name)

매개 변수

snapshot_name
str
필수

스냅샷 이름입니다.

반환

없음

반환 형식

설명

스냅샷에 저장된 데이터 중에서 더 이상 필요 없는 데이터가 사용하는 스토리지를 확보하려면 이 옵션을 사용합니다.

deprecate

작업 영역의 활성 데이터 세트를 다른 데이터 세트로 사용 중단합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

deprecate(deprecate_by_dataset_id)

매개 변수

deprecate_by_dataset_id
str
필수

이 데이터 세트를 대체할 데이터 세트 ID입니다.

반환

없음

반환 형식

설명

사용되지 않는 데이터 세트를 사용하면 경고가 기록됩니다. 데이터 세트를 사용 중단하면 데이터 세트의 모든 정의가 더 이상 사용되지 않습니다.

사용되지 않는 데이터 세트를 계속 사용할 수 있습니다. 데이터 세트가 사용되지 않도록 완전히 차단하려면 데이터 세트를 보관합니다.

실수로 사용 중단한 경우 다시 활성화하면 활성화됩니다.

diff

rhs_dataset를 사용하여 현재 데이터 세트를 비교합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

diff(rhs_dataset, compute_target=None, columns=None)

매개 변수

rhs_dataset
Dataset
필수

오른쪽 데이터 세트라고도 하는 또 다른 데이터 세트이며 비교에 사용됩니다.

compute_target
Union[ComputeTarget, str]
필수

비교를 수행할 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다.

columns
list[str]
필수

비교에 포함할 열 이름 목록입니다.

반환

데이터 세트 작업 실행 개체입니다.

반환 형식

from_binary_files

이진 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.File.from_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static from_binary_files(path)

매개 변수

path
DataReference 또는 str
필수

등록된 데이터 저장소의 데이터 경로 또는 로컬 경로입니다.

반환

데이터 세트 개체입니다.

반환 형식

설명

파일을 이진 데이터 스트림으로 읽으려면 이 메서드를 사용합니다. 파일 읽기당 하나의 파일 스트림 개체를 반환합니다. 이미지, 비디오, 오디오 또는 기타 이진 데이터를 읽을 때 이 메서드를 사용합니다.

get_profilecreate_snapshot은 이 메서드로 만든 데이터 세트에 대해 예상대로 작동하지 않습니다.

반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.

from_delimited_files

구분된 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_delimited_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

매개 변수

path
DataReference 또는 str
필수

등록된 데이터 저장소의 데이터 경로, 로컬 경로 또는 HTTP URL입니다.

separator
str
필수

열을 분할하는 데 사용되는 구분 기호입니다.

header
PromoteHeadersBehavior
필수

파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다.

encoding
FileEncoding
필수

읽고 있는 파일의 인코딩입니다.

quoting
bool
필수

따옴표 안의 새 줄 문자를 처리하는 방법을 지정합니다. 기본값(False)은 새 줄 문자가 따옴표 안에 있는지 여부에 관계없이 새 줄 문자를 새로 시작하는 행으로 해석하는 것입니다. True로 설정하면 따옴표 안에 새 줄 문자가 있어도 새 행으로 해석되지 않으며, 파일 읽기 속도가 느려집니다.

infer_column_types
bool
필수

열 데이터 형식이 유추되는지 여부를 나타냅니다.

skip_rows
int
필수

읽고 있는 파일에서 건너뛸 행 수입니다.

skip_mode
SkipLinesBehavior
필수

파일에서 읽을 때 행을 건너뛰는 방법을 제어합니다.

comment
str
필수

읽는 파일의 주석 줄을 나타내는 데 사용되는 문자입니다. 이 문자열로 시작하는 줄은 건너뜁니다.

include_path
bool
필수

데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽고 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
필수

보관 형식 및 항목 GLOB 패턴을 포함한 보관 파일 옵션입니다. 현재는 보관 형식으로 ZIP만 지원됩니다. 예를 들어 다음을 지정하면


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

ZIP에서 이름이 "10-20.csv"로 끝나는 모든 파일을 읽습니다.

partition_format
str
필수

경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.csv'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다.

반환

데이터 세트 개체입니다.

반환 형식

설명

사용된 옵션을 제어하려는 경우 이 메서드를 사용하여 구분된 텍스트 파일을 읽습니다.

데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다.

반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.

from_excel_files

Excel 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

매개 변수

path
DataReference 또는 str
필수

등록된 데이터 저장소의 데이터 경로 또는 로컬 경로입니다.

sheet_name
str
필수

로드할 Excel 시트의 이름입니다. 기본적으로 각 Excel 파일에서 첫 번째 시트를 읽습니다.

use_column_headers
bool
필수

첫 번째 행을 열 헤더로 사용할지 여부를 제어합니다.

skip_rows
int
필수

읽고 있는 파일에서 건너뛸 행 수입니다.

include_path
bool
필수

데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽고 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

infer_column_types
bool
필수

true이면 열 데이터 형식이 유추됩니다.

partition_format
str
필수

경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.xlsx'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다.

반환

데이터 세트 개체입니다.

반환 형식

설명

Excel 파일을 .xlsx 형식으로 읽으려면 이 메서드를 사용합니다. 각 Excel 파일의 한 시트에서 데이터를 읽을 수 있습니다. 데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다. 반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.

from_json_files

JSON 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_json_lines_files를 사용하여 JSON 라인 파일에서 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

매개 변수

path
DataReference 또는 str
필수

로드하고 구문 분석하려는 파일 또는 폴더의 경로입니다. 로컬 경로 또는 Azure Blob URL입니다. 글로빙이 지원됩니다. 예를 들어 path = "./data*"를 사용하여 이름이 "data"로 시작하는 모든 파일을 읽을 수 있습니다.

encoding
FileEncoding
필수

읽고 있는 파일의 인코딩입니다.

flatten_nested_arrays
bool
필수

속성 제어 프로그램의 중첩 배열 처리입니다. 중첩된 JSON 배열을 병합하도록 선택하면 훨씬 더 많은 수의 행이 생성될 수 있습니다.

include_path
bool
필수

데이터를 읽은 경로가 포함된 열을 포함할지 여부를 나타냅니다. 이는 여러 파일을 읽을 때 유용하며 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려고 할 수 있습니다.

partition_format
str
필수

경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.json'이고 데이터가 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json'을 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다.

반환

로컬 데이터 세트 개체입니다.

반환 형식

from_pandas_dataframe

pandas 데이터 프레임에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.register_pandas_dataframe을 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

매개 변수

dataframe
DataFrame
필수

Pandas DataFrame입니다.

path
Union[DataReference, str]
필수

등록된 데이터 저장소 또는 로컬 폴더 경로의 데이터 경로입니다.

in_memory
bool
필수

디스크에 유지하는 대신 메모리에서 DataFrame을 읽을지 여부를 나타냅니다.

반환

데이터 세트 개체입니다.

반환 형식

설명

Pandas 데이터 프레임을 데이터 세트 개체로 변환하려면 이 메서드를 사용합니다. 이 메서드로 만든 데이터 세트는 데이터가 메모리에서 가져온 것이기 때문에 등록할 수 없습니다.

in_memory가 False이면 Pandas DataFrame이 로컬에서 CSV 파일로 변환됩니다. pat가 DataReference 유형이면 Pandas 프레임이 데이터 저장소에 업로드되고 Dataset은 DataReference를 기반으로 합니다. ''path'가 로컬 폴더인 경우 삭제할 수 없는 로컬 파일에서 데이터 세트가 만들어집니다.

현재 DataReference가 폴더 경로가 아닌 경우 예외를 발생시킵니다.

from_parquet_files

parquet 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_parquet_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static from_parquet_files(path, include_path=False, partition_format=None)

매개 변수

path
DataReference 또는 str
필수

등록된 데이터 저장소의 데이터 경로 또는 로컬 경로입니다.

include_path
bool
필수

데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽고 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

partition_format
str
필수

경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.parquet'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다.

반환

데이터 세트 개체입니다.

반환 형식

설명

Parquet 파일을 읽으려면 이 메서드를 사용합니다.

데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다.

반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.

from_sql_query

SQL 쿼리에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 Dataset.Tabular.from_sql_query를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static from_sql_query(data_source, query)

매개 변수

data_source
AzureSqlDatabaseDatastore
필수

Azure SQL 데이터 저장소의 세부 정보입니다.

query
str
필수

데이터를 읽기 위해 실행할 쿼리입니다.

반환

로컬 데이터 세트 개체입니다.

반환 형식

generate_profile

데이터 세트에 대한 새 프로필을 생성합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

generate_profile(compute_target=None, workspace=None, arguments=None)

매개 변수

compute_target
Union[ComputeTarget, str]
필수

스냅샷 프로필 만들기를 수행하기 위한 선택적 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다.

workspace
Workspace
필수

임시(등록되지 않은) 데이터 세트에 필요한 작업 영역입니다.

arguments
dict[str, object]
필수

프로필 인수입니다. 유효한 인수는 다음과 같습니다.

  • 부울 형식의 'include_stype_counts'입니다. 값이 이메일 주소, IP 주소(V4/V6), 미국 전화번호, 미국 우편번호, 위도/경도와 같이 잘 알려진 의미 유형과 유사한지 확인합니다. 이를 사용하도록 설정하면 성능에 영향을 미칩니다.

  • int 형식의 'number_of_histogram_bins'입니다. 숫자 데이터에 사용할 히스토그램 bin 수를 나타냅니다. 기본값은 10입니다.

반환

데이터 세트 작업 실행 개체입니다.

반환 형식

설명

동기 호출은 완료될 때까지 차단됩니다. 작업 결과를 가져오려면 get_result를 호출합니다.

get

이름이나 ID를 지정하여 작업 영역에 이미 존재하는 데이터 세트를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 get_by_nameget_by_id를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static get(workspace, name=None, id=None)

매개 변수

workspace
Workspace
필수

데이터 세트가 만들어진 기존 AzureML 작업 영역입니다.

name
str
필수

검색할 데이터 세트의 이름입니다.

id
str
필수

작업 영역에 있는 데이터 세트의 고유 식별자입니다.

반환

지정된 이름 또는 ID를 가진 데이터 세트입니다.

반환 형식

설명

name 또는 id를 제공할 수 있습니다. 다음과 같은 경우 예외가 발생합니다.

  • nameid가 모두 지정되었지만 일치하지 않습니다.

  • 지정된 name 또는 id가 있는 데이터 세트를 작업 영역에서 찾을 수 없습니다.

get_all

작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.

get_all()

매개 변수

workspace
Workspace
필수

데이터 세트가 등록된 기존 AzureML 작업 영역입니다.

반환

등록 이름으로 키가 지정된 TabularDataset 및 FileDataset 개체의 사전입니다.

반환 형식

get_all_snapshots

데이터 세트의 모든 스냅샷을 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_all_snapshots()

반환

데이터 세트 스냅샷 목록입니다.

반환 형식

get_by_id

작업 영역에 저장된 데이터 세트를 가져옵니다.

get_by_id(id, **kwargs)

매개 변수

workspace
Workspace
필수

데이터 세트가 저장된 기존 AzureML 작업 영역입니다.

id
str
필수

데이터 세트의 ID입니다.

반환

데이터 세트 개체입니다. 데이터 세트가 등록되면 등록 이름 및 버전도 반환됩니다.

반환 형식

get_by_name

작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다.

get_by_name(name, version='latest', **kwargs)

매개 변수

workspace
Workspace
필수

데이터 세트가 등록된 기존 AzureML 작업 영역입니다.

name
str
필수

등록 이름입니다.

version
int
필수

등록 버전입니다. 기본값은 'latest'입니다.

반환

등록된 데이터 세트 개체입니다.

반환 형식

get_definition

데이터 세트의 특정 정의를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_definition(version_id=None)

매개 변수

version_id
str
필수

데이터 세트 정의의 버전 ID입니다.

반환

데이터 세트 정의입니다.

반환 형식

설명

version_id가 제공되면 Azure Machine Learning은 해당 버전에 해당하는 정의를 가져오려고 시도합니다. 해당 버전이 없으면 예외가 throw됩니다. version_id를 생략하면 최신 버전이 검색됩니다.

get_definitions

데이터 세트의 모든 정의를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_definitions()

반환

데이터 세트 정의의 사전입니다.

반환 형식

설명

AzureML 작업 영역에 등록된 데이터 세트에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.

등록되지 않은 데이터 세트의 경우 하나의 정의만 존재합니다.

get_profile

이전에 컴퓨팅된 데이터 세트에 대한 요약 통계를 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

매개 변수

arguments
dict[str, object]
필수

프로필 인수입니다.

generate_if_not_exist
bool
필수

프로필이 없는 경우 생성할지 여부를 나타냅니다.

workspace
Workspace
필수

임시(등록되지 않은) 데이터 세트에 필요한 작업 영역입니다.

compute_target
Union[ComputeTarget, str]
필수

프로필 작업을 실행할 컴퓨팅 대상입니다.

반환

데이터 세트의 DataProfile입니다.

반환 형식

<xref:azureml.dataprep.DataProfile>

설명

Azure Machine Learning 작업 영역에 등록된 데이터 세트의 경우 이 메서드는 아직 유효한 경우 get_profile을 호출하여 이전에 만든 기존 프로필을 검색합니다. 데이터 세트에서 변경된 데이터가 검색되거나 get_profile에 대한 인수가 프로필이 생성될 때 사용된 인수와 다른 경우 프로필이 무효화됩니다. 프로필이 없거나 무효화된 경우 generate_if_not_exist에서 새 프로필이 생성되는지 유효성 검사합니다.

Azure Machine Learning 작업 영역에 등록되지 않은 데이터 세트의 경우 이 메서드는 항상 generate_profile을 실행하고 결과를 반환합니다.

get_snapshot

이름으로 데이터 세트의 스냅샷을 가져옵니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

get_snapshot(snapshot_name)

매개 변수

snapshot_name
str
필수

스냅샷 이름입니다.

반환

데이터 세트 스냅샷 개체입니다.

반환 형식

head

이 데이터 세트에서 지정한 레코드 수를 끌어와서 DataFrame으로 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

head(count)

매개 변수

count
int
필수

가져올 레코드 수입니다.

반환

Pandas DataFrame입니다.

반환 형식

list

is_visible 속성이 False인 데이터 세트를 포함하여 작업 영역의 모든 데이터 세트를 나열합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 get_all를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

static list(workspace)

매개 변수

workspace
Workspace
필수

데이터 세트 목록을 검색할 작업 영역입니다.

반환

Dataset 개체의 목록입니다.

반환 형식

reactivate

보관되거나 사용되지 않는 데이터 세트를 다시 활성화합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

reactivate()

반환

없음

반환 형식

register

작업 영역의 다른 사용자가 사용할 수 있도록 데이터 세트를 작업 영역에 등록합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

대신 register를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

매개 변수

workspace
Workspace
필수

데이터 세트를 등록할 AzureML 작업 영역입니다.

name
str
필수

작업 영역에 있는 데이터 세트의 이름입니다.

description
str
필수

데이터 세트에 대한 설명입니다.

tags
dict[str, str]
필수

데이터 세트와 연결할 태그입니다.

visible
bool
필수

데이터 세트가 UI에 표시되는지 여부를 나타냅니다. False이면 데이터 세트가 UI에 숨겨지고 SDK를 통해 사용할 수 있습니다.

exist_ok
bool
필수

True이면 지정된 작업 영역에 이미 있는 경우 데이터 세트가 반환되며, 그렇지 않으면 오류가 발생합니다.

update_if_exist
bool
필수

exist_ok가 True이고 update_if_exist가 True이면 이 메서드는 정의를 업데이트하고 업데이트된 데이터 세트를 반환합니다.

반환

작업 영역에 등록된 데이터 세트 개체입니다.

반환 형식

sample

제공된 샘플링 전략 및 매개 변수를 사용하여 원본 데이터 세트에서 새 샘플을 생성합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 take_sample 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

sample(sample_strategy, arguments)

매개 변수

sample_strategy
str
필수

사용할 샘플 전략입니다. 허용되는 값은 "top_n", "simple_random" 또는 "stratified"입니다.

arguments
dict[str, object]
필수

위에 표시된 목록의 "선택적 인수"의 키와 tye "Type" 열의 값이 있는 사전입니다. 해당 샘플링 방법의 인수만 사용할 수 있습니다. 예를 들어 "simple_random" 샘플 형식의 경우 "probability" 및 "seed" 키가 있는 사전만 지정할 수 있습니다.

반환

원래 데이터 세트의 샘플인 데이터 세트 개체입니다.

반환 형식

설명

샘플은 이 데이터 세트에서 정의한 변환 파이프라인을 실행한 다음, 샘플링 전략 및 매개 변수를 출력 데이터에 적용하여 생성됩니다. 각 샘플링 메서드는 다음과 같은 선택적 인수를 지원합니다.

  • top_n

    • 선택적 인수

      • n, type integer. 샘플로 상위 N개 행을 선택합니다.
  • simple_random

    • 선택적 인수

      • probability, type float. 각 행이 선택될 확률이 동일한 단순 임의 샘플링입니다. 확률은 0과 1 사이의 숫자여야 합니다.

      • seed, type float. 난수 생성기에서 사용합니다. 반복성을 위해 사용합니다.

  • stratified

    • 선택적 인수

      • columns, type list[str]. 데이터의 계층 열 목록입니다.

      • seed, type float. 난수 생성기에서 사용합니다. 반복성을 위해 사용합니다.

      • fractions, type dict[tuple, float]. 튜플: 계층을 정의하는 열 값은 열 이름과 같은 순서여야 합니다. Float: 샘플링 중에 계층에 연결된 가중치입니다.

다음 코드 조각은 다양한 샘플 메서드에 대한 예제 디자인 패턴입니다.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_pandas_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

to_pandas_dataframe()

반환

Pandas DataFrame입니다.

반환 형식

설명

메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.

to_spark_dataframe

이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark DataFrame을 만듭니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_spark_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

to_spark_dataframe()

반환

Spark DataFrame입니다.

반환 형식

설명

반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다.

update

작업 영역에서 데이터 세트 변경 가능 특성을 업데이트하고 작업 영역에서 업데이트된 데이터 세트를 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

update(name=None, description=None, tags=None, visible=None)

매개 변수

name
str
필수

작업 영역에 있는 데이터 세트의 이름입니다.

description
str
필수

데이터에 대한 설명입니다.

tags
dict[str, str]
필수

데이터 세트를 연결할 태그입니다.

visible
bool
필수

데이터 세트가 UI에 표시되는지 여부를 나타냅니다.

반환

작업 영역에서 업데이트된 데이터 세트 개체입니다.

반환 형식

update_definition

데이터 세트 정의를 업데이트합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

update_definition(definition, definition_update_message)

매개 변수

definition
DatasetDefinition
필수

이 데이터 세트의 새로운 정의입니다.

definition_update_message
str
필수

정의 업데이트 메시지입니다.

반환

작업 영역에서 업데이트된 데이터 세트 개체입니다.

반환 형식

설명

업데이트된 데이터 세트를 사용하려면 이 메서드에서 반환된 개체를 사용합니다.

특성

definition

현재 데이터 세트 정의를 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

반환

데이터 세트 정의입니다.

반환 형식

설명

데이터 세트 정의는 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계입니다.

AzureML 작업 영역에 등록된 데이터 세트에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 여러 정의가 있으면 이전 정의를 사용하는 모델 및 파이프라인을 중단하지 않고도 기존 데이터 세트를 변경할 수 있습니다.

등록되지 않은 데이터 세트의 경우 하나의 정의만 존재합니다.

definition_version

데이터 세트의 현재 정의 버전을 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

반환

데이터 세트 정의 버전입니다.

반환 형식

str

설명

데이터 세트 정의는 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계입니다.

AzureML 작업 영역에 등록된 데이터 세트에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의는 가장 최근에 만들어진 정의이며, 정의의 ID는 고유 식별자를 통해 반환됩니다.

등록되지 않은 데이터 세트의 경우 하나의 정의만 존재합니다.

description

데이터 세트에 대한 설명을 반환합니다.

반환

데이터 세트 설명입니다.

반환 형식

str

설명

데이터 세트의 데이터에 대한 설명을 지정하면 작업 영역 사용자는 데이터가 나타내는 내용과 데이터 사용 방법을 이해할 수 있습니다.

id

데이터 세트가 작업 영역에 등록된 경우 데이터 세트의 ID를 반환합니다. 그렇지 않으면 None을 반환합니다.

반환

데이터 세트 ID입니다.

반환 형식

str

is_visible

Azure ML 작업 영역 UI에 등록된 데이터 세트의 표시 유형을 제어합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

반환

데이터 세트 표시 유형입니다.

반환 형식

설명

반환된 값:

  • True: 데이터 세트가 작업 영역 UI에 표시됩니다. 기본값

  • False: 데이터 세트가 작업 영역 UI에서 숨겨집니다.

등록되지 않은 데이터 세트에는 영향을 주지 않습니다.

name

데이터 세트 이름을 반환합니다.

반환

데이터 세트 이름입니다.

반환 형식

str

state

데이터 세트 상태를 반환합니다.

참고

이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.

자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

반환

데이터 세트 상태입니다.

반환 형식

str

설명

상태의 의미와 효과는 다음과 같습니다.

  • 활성 활성 정의는 단어 뜻 그대로이며, 모든 작업은 활성 정의에서 수행할 수 있습니다.

  • 더 이상 사용되지 않습니다. 사용되지 않는 정의를 사용할 수 있지만, 기본 데이터에 액세스할 때마다 로그에 경고가 기록됩니다.

  • 보관됨. 보관된 정의는 작업을 수행하는 데 사용할 수 없습니다. 보관된 정의에서 작업을 수행하려면 정의를 다시 활성화해야 합니다.

tags

데이터 세트와 연결된 태그를 반환합니다.

반환

데이터 세트 태그입니다.

반환 형식

workspace

데이터 세트가 작업 영역에 등록된 경우 해당 작업 영역을 반환합니다. 그렇지 않으면 None을 반환합니다.

반환

작업 영역입니다.

반환 형식

Tabular

만들기 위한 팩터리 FileDataset

의 별칭 TabularDatasetFactory