TabularDataset 클래스
Azure Machine Learning에 사용할 테이블 형식 데이터 세트를 나타냅니다.
TabularDataset은 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가되고, 변경이 불가능한 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 원본에서 데이터가 로드되지 않습니다.
TabularDataset은 TabularDatasetFactory 클래스의 from_delimited_files와 같은 메서드를 사용하여 만들어집니다.
자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요.
TabularDataset 개체를 초기화합니다.
이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.
- 상속
-
TabularDataset
생성자
TabularDataset()
설명
TabularDatasetFactory 클래스의 from_*
메서드를 사용하여 CSV, TSV, Parquet 파일 또는 SQL 쿼리에서 TabularDataset를 만들 수 있습니다. 레코드 분할, 건너뛰기 및 필터링과 같은 TabularDataset에서 하위 집합 작업을 수행할 수 있습니다.
하위 집합의 결과는 항상 하나 이상의 새 TabularDataset 개체입니다.
TabularDataset를 pandas DataFrame과 같은 다른 형식으로 변환할 수도 있습니다. 실제 데이터 로드는 TabularDataset가 다른 스토리지 메커니즘(예: pandas DataFrame 또는 CSV 파일)에 데이터를 전달하도록 요청될 때 발생합니다.
TabularDataset은 실험 실행의 입력으로 사용할 수 있습니다. 지정된 이름의 작업 영역에 등록할 수도 있고 나중에 해당 이름으로 검색할 수도 있습니다.
메서드
download |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다. |
drop_columns |
데이터 세트에서 지정한 열을 삭제합니다. 시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다. |
filter |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다. |
get_profile |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다. |
get_profile_runs |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다. |
keep_columns |
지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다. 시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다. |
mount |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 데이터 세트에 의해 정의된 파일 스트림을 로컬 파일로 탑재하는 컨텍스트 관리자를 만듭니다. |
partition_by |
분할된 데이터가 복사되어 대상에서 지정한 대상으로 출력됩니다. 파티션 형식으로 출력된 데이터 경로에서 데이터 세트 만들기, 이름이 제공된 경우 데이터 세트 등록, 파티션이 있는 새 데이터 경로에 대한 데이터 세트 반환
|
random_split |
데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다. 첫 번째 데이터 세트에는 총 레코드와 나머지 레코드인 두 번째 데이터 세트의 대략적인 |
skip |
데이터 세트의 맨 위부터 지정된 개수만큼 레코드를 건너뜁니다. |
submit_profile_run |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 실험 실행을 제출하여 데이터 프로필을 계산합니다. 데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고, 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다. |
take |
데이터 세트의 맨 위부터 지정된 개수만큼 레코드 샘플을 가져옵니다. |
take_sample |
데이터 세트의 임의 레코드 샘플을 대략 지정된 확률만큼 가져옵니다. |
time_after |
지정된 시작 시간 후에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다. |
time_before |
지정된 종료 시간 전에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다. |
time_between |
지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다. |
time_recent |
최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다. |
to_csv_files |
현재 데이터 세트를 CSV 파일이 포함된 FileDataset로 변환합니다. 결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다. |
to_dask_dataframe |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 데이터 세트의 데이터를 느리게 읽을 수 있는 Dask DataFrame을 반환합니다. |
to_pandas_dataframe |
데이터 세트의 모든 레코드를 pandas DataFrame에 로드합니다. |
to_parquet_files |
현재 데이터 세트를 Parquet 파일이 포함된 FileDataset로 변환합니다. 결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다. |
to_spark_dataframe |
데이터 세트의 모든 레코드를 Spark 데이터 프레임에 로드합니다. |
with_timestamp_columns |
데이터 세트에 대한 타임스탬프 열을 정의합니다. |
download
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
매개 변수
- overwrite
- bool
기존 파일을 덮어쓸지 여부입니다. 기본값은 False입니다. 덮어쓰기가 True로 설정된 경우 기존 파일을 덮어씁니다. 그렇지 않으면 예외가 발생합니다.
- ignore_not_found
- bool
데이터 세트가 가리키는 일부 파일을 찾을 수 없는 경우 다운로드 실패 여부를 나타냅니다. 기본값은 true입니다. ignore_not_found가 False로 설정된 경우 어떤 이유로든 파일 다운로드가 실패하면 다운로드가 실패합니다. 그렇지 않으면 찾을 수 없는 오류에 대한 경고가 기록되고 다른 오류 형식이 발생하지 않는 한 다운로드가 성공합니다.
반환
다운로드한 각 파일에 대한 파일 경로의 배열을 반환합니다.
반환 형식
drop_columns
데이터 세트에서 지정한 열을 삭제합니다.
시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
drop_columns(columns)
매개 변수
반환
지정한 열이 삭제된 새 TabularDataset 개체를 반환합니다.
반환 형식
filter
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.
filter(expression)
매개 변수
반환
수정된 데이터 집합(등록되지 않음)입니다.
반환 형식
설명
식은 열 이름으로 데이터 집합을 인덱싱하여 시작됩니다. 다양한 함수와 연산자를 지원하며 논리 연산자를 사용하여 결합할 수 있습니다. 결과 식은 정의된 위치가 아니라 데이터 풀이 발생할 때 각 레코드에 대해 지연 평가됩니다.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.
get_profile(workspace=None)
매개 변수
- workspace
- Workspace
프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필수입니다. 작업 영역에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace를 참조하세요.
반환
DatasetProfile 형식의 최신 프로필 실행에서 얻은 프로필 결과입니다.
반환 형식
get_profile_runs
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.
get_profile_runs(workspace=None)
매개 변수
- workspace
- Workspace
프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필수입니다. 작업 영역에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace를 참조하세요.
반환
azureml.core.Run 형식의 반복기 개체입니다.
반환 형식
keep_columns
지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.
시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
keep_columns(columns, validate=False)
매개 변수
- validate
- bool
반환된 데이터 세트에서 데이터를 로드할 수 있는지 확인할지 여부를 나타냅니다. 기본값은 False입니다. 확인하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.
반환
지정된 열만 보관된 새 TabularDataset 개체를 반환합니다.
반환 형식
mount
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
데이터 세트에 의해 정의된 파일 스트림을 로컬 파일로 탑재하는 컨텍스트 관리자를 만듭니다.
mount(stream_column, mount_point=None)
매개 변수
- mount_point
- str
파일을 탑재할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 탑재되며, MountContext.mount_point 인스턴스 메서드를 호출하여 찾을 수 있습니다.
반환
탑재의 수명 주기를 관리할 컨텍스트 관리자를 반환합니다.
반환 형식
partition_by
분할된 데이터가 복사되어 대상에서 지정한 대상으로 출력됩니다.
파티션 형식으로 출력된 데이터 경로에서 데이터 세트 만들기, 이름이 제공된 경우 데이터 세트 등록, 파티션이 있는 새 데이터 경로에 대한 데이터 세트 반환
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
매개 변수
필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.
- partition_as_file_dataset
선택 사항으로 파일 데이터 세트를 반환할지 여부를 나타냅니다. 기본값은 False입니다.
반환
저장되거나 등록된 데이터 세트입니다.
반환 형식
random_split
데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.
첫 번째 데이터 세트에는 총 레코드와 나머지 레코드인 두 번째 데이터 세트의 대략적인 percentage
이 포함되어 있습니다.
random_split(percentage, seed=None)
매개 변수
반환
분할 후 두 데이터 세트를 나타내는 새 TabularDataset 개체의 튜플을 반환합니다.
반환 형식
skip
데이터 세트의 맨 위부터 지정된 개수만큼 레코드를 건너뜁니다.
skip(count)
매개 변수
반환
건너뛴 레코드가 있는 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.
반환 형식
submit_profile_run
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
실험 실행을 제출하여 데이터 프로필을 계산합니다.
데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고, 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
매개 변수
- compute_target
- Union[str, ComputeTarget]
프로필 계산 실험을 실행할 컴퓨팅 대상입니다. 로컬 컴퓨팅을 사용하도록 'local'을 지정합니다. 컴퓨팅 대상에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget을 참조하세요.
- experiment
- Experiment
실험 개체입니다. 실험에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment를 참조하세요.
반환
DatasetProfileRun 클래스 형식의 개체입니다.
반환 형식
take
데이터 세트의 맨 위부터 지정된 개수만큼 레코드 샘플을 가져옵니다.
take(count)
매개 변수
반환
샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.
반환 형식
take_sample
데이터 세트의 임의 레코드 샘플을 대략 지정된 확률만큼 가져옵니다.
take_sample(probability, seed=None)
매개 변수
반환
샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.
반환 형식
time_after
지정된 시작 시간 후에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.
time_after(start_time, include_boundary=True, validate=True)
매개 변수
- validate
- bool
지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.
반환
필터링된 새 데이터 세트가 있는 TabularDataset입니다.
반환 형식
time_before
지정된 종료 시간 전에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.
time_before(end_time, include_boundary=True, validate=True)
매개 변수
- validate
- bool
지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.
반환
필터링된 새 데이터 세트가 있는 TabularDataset입니다.
반환 형식
time_between
지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.
time_between(start_time, end_time, include_boundary=True, validate=True)
매개 변수
- validate
- bool
지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.
반환
필터링된 새 데이터 세트가 있는 TabularDataset입니다.
반환 형식
time_recent
최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.
time_recent(time_delta, include_boundary=True, validate=True)
매개 변수
- validate
- bool
지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.
반환
필터링된 새 데이터 세트가 있는 TabularDataset입니다.
반환 형식
to_csv_files
현재 데이터 세트를 CSV 파일이 포함된 FileDataset로 변환합니다.
결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_csv_files(separator=',')
매개 변수
반환
이 데이터 세트의 데이터가 포함된 CSV 파일 집합이 있는 새 FileDataset 개체를 반환합니다.
반환 형식
to_dask_dataframe
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
데이터 세트의 데이터를 느리게 읽을 수 있는 Dask DataFrame을 반환합니다.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
매개 변수
- sample_size
스키마 및 형식을 결정하기 위해 읽을 레코드 수입니다.
- dtypes
예상되는 열과 해당 dtypes를 지정하는 선택적 dict입니다. sample_size가 제공되면 무시됩니다.
- on_error
값을 구문 분석하는 동안 오류로 인해 생성된 것과 같은 데이터 세트의 오류 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.
- out_of_range_datetime
Pandas가 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.
반환
dask.dataframe.core.DataFrame
to_pandas_dataframe
데이터 세트의 모든 레코드를 pandas DataFrame에 로드합니다.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
매개 변수
- on_error
값을 구문 분석하는 동안 오류로 인해 생성된 것과 같은 데이터 세트의 오류 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.
- out_of_range_datetime
Pandas가 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.
반환
pandas DataFrame을 반환합니다.
반환 형식
to_parquet_files
현재 데이터 세트를 Parquet 파일이 포함된 FileDataset로 변환합니다.
결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_parquet_files()
반환
이 데이터 세트의 데이터가 포함된 Parquet 파일 집합이 있는 새 FileDataset 개체를 반환합니다.
반환 형식
to_spark_dataframe
with_timestamp_columns
데이터 세트에 대한 타임스탬프 열을 정의합니다.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
매개 변수
- partition_timestamp
- str
partition_timestamp 열의 이름(이전에는 성긴 타임스탬프라고 했음)(선택 사항)입니다. 기본값은 None(없음)입니다.
- validate
- bool
지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 False입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.
반환
타임스탬프 열이 정의된 새 TabularDataset를 반환합니다.
반환 형식
설명
이 메서드는 타임스탬프로 사용할 열을 정의합니다. 데이터 세트의 타임스탬프 열을 사용하면 데이터를 시계열 데이터로 처리하고 추가 기능을 사용할 수 있습니다. 데이터 세트에 timestamp (used to be referred as fine_grain_timestamp)
및 partition_timestamp (used to be referred as coarse grain timestamp)
가 모두 지정된 경우 두 열은 동일한 타임라인을 나타내야 합니다.
특성
timestamp_columns
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기