TabularDataset 클래스

참조

Azure Machine Learning에 사용할 테이블 형식 데이터 세트를 나타냅니다.

TabularDataset은 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가되고, 변경이 불가능한 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 원본에서 데이터가 로드되지 않습니다.

TabularDataset은 TabularDatasetFactory 클래스의 from_delimited_files와 같은 메서드를 사용하여 만들어집니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요.

TabularDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.

상속: AbstractDataset

TabularDataset

생성자

TabularDataset()

설명

TabularDatasetFactory 클래스의 from_* 메서드를 사용하여 CSV, TSV, Parquet 파일 또는 SQL 쿼리에서 TabularDataset를 만들 수 있습니다. 레코드 분할, 건너뛰기 및 필터링과 같은 TabularDataset에서 하위 집합 작업을 수행할 수 있습니다. 하위 집합의 결과는 항상 하나 이상의 새 TabularDataset 개체입니다.

TabularDataset를 pandas DataFrame과 같은 다른 형식으로 변환할 수도 있습니다. 실제 데이터 로드는 TabularDataset가 다른 스토리지 메커니즘(예: pandas DataFrame 또는 CSV 파일)에 데이터를 전달하도록 요청될 때 발생합니다.

TabularDataset은 실험 실행의 입력으로 사용할 수 있습니다. 지정된 이름의 작업 영역에 등록할 수도 있고 나중에 해당 이름으로 검색할 수도 있습니다.

메서드

download	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.
drop_columns	데이터 세트에서 지정한 열을 삭제합니다. 시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
filter	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.
get_profile	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.
get_profile_runs	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.
keep_columns	지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다. 시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
mount	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 데이터 세트에 의해 정의된 파일 스트림을 로컬 파일로 탑재하는 컨텍스트 관리자를 만듭니다.
partition_by	분할된 데이터가 복사되어 대상에서 지정한 대상으로 출력됩니다. 파티션 형식으로 출력된 데이터 경로에서 데이터 세트 만들기, 이름이 제공된 경우 데이터 세트 등록, 파티션이 있는 새 데이터 경로에 대한 데이터 세트 반환 `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다. 첫 번째 데이터 세트에는 총 레코드와 나머지 레코드인 두 번째 데이터 세트의 대략적인 `percentage`이 포함되어 있습니다.
skip	데이터 세트의 맨 위부터 지정된 개수만큼 레코드를 건너뜁니다.
submit_profile_run	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 실험 실행을 제출하여 데이터 프로필을 계산합니다. 데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고, 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.
take	데이터 세트의 맨 위부터 지정된 개수만큼 레코드 샘플을 가져옵니다.
take_sample	데이터 세트의 임의 레코드 샘플을 대략 지정된 확률만큼 가져옵니다.
time_after	지정된 시작 시간 후에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.
time_before	지정된 종료 시간 전에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.
time_between	지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.
time_recent	최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.
to_csv_files	현재 데이터 세트를 CSV 파일이 포함된 FileDataset로 변환합니다. 결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_dask_dataframe	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 데이터 세트의 데이터를 느리게 읽을 수 있는 Dask DataFrame을 반환합니다.
to_pandas_dataframe	데이터 세트의 모든 레코드를 pandas DataFrame에 로드합니다.
to_parquet_files	현재 데이터 세트를 Parquet 파일이 포함된 FileDataset로 변환합니다. 결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_spark_dataframe	데이터 세트의 모든 레코드를 Spark 데이터 프레임에 로드합니다.
with_timestamp_columns	데이터 세트에 대한 타임스탬프 열을 정의합니다.

download

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

매개 변수

Name	Description
stream_column 필수	str 다운로드할 스트림 열입니다.
target_path 필수	str 파일을 다운로드할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 다운로드됩니다.
overwrite 필수	bool 기존 파일을 덮어쓸지 여부입니다. 기본값은 False입니다. 덮어쓰기가 True로 설정된 경우 기존 파일을 덮어씁니다. 그렇지 않으면 예외가 발생합니다.
ignore_not_found 필수	bool 데이터 세트가 가리키는 일부 파일을 찾을 수 없는 경우 다운로드 실패 여부를 나타냅니다. 기본값은 true입니다. ignore_not_found가 False로 설정된 경우 어떤 이유로든 파일 다운로드가 실패하면 다운로드가 실패합니다. 그렇지 않으면 찾을 수 없는 오류에 대한 경고가 기록되고 다른 오류 형식이 발생하지 않는 한 다운로드가 성공합니다.

반환

형식	Description
ndarray	다운로드한 각 파일에 대한 파일 경로의 배열을 반환합니다.

drop_columns

데이터 세트에서 지정한 열을 삭제합니다.

시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

drop_columns(columns)

매개 변수

Name	Description
columns 필수	Union[str, list[str]] 삭제할 열의 이름 또는 이름 목록입니다.

반환

형식	Description
TabularDataset	지정한 열이 삭제된 새 TabularDataset 개체를 반환합니다.

filter

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.

filter(expression)

매개 변수

Name	Description
expression 필수	any 계산할 식입니다.

반환

형식	Description
TabularDataset	수정된 데이터 집합(등록되지 않음)입니다.

설명

식은 열 이름으로 데이터 집합을 인덱싱하여 시작됩니다. 다양한 함수와 연산자를 지원하며 논리 연산자를 사용하여 결합할 수 있습니다. 결과 식은 정의된 위치가 아니라 데이터 풀이 발생할 때 각 레코드에 대해 지연 평가됩니다.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.

get_profile(workspace=None)

매개 변수

Name	Description
workspace 필수	Workspace 프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필수입니다. 작업 영역에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace를 참조하세요.

반환

형식	Description
DatasetProfile	DatasetProfile 형식의 최신 프로필 실행에서 얻은 프로필 결과입니다.

get_profile_runs

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.

get_profile_runs(workspace=None)

매개 변수

Name	Description
workspace 필수	Workspace 프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필수입니다. 작업 영역에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace를 참조하세요.

반환

형식	Description
iter(Run)	azureml.core.Run 형식의 반복기 개체입니다.

keep_columns

지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.

시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

keep_columns(columns, validate=False)

매개 변수

Name	Description
columns 필수	Union[str, list[str]] 유지할 열의 이름 또는 이름 목록입니다.
validate 필수	bool 반환된 데이터 세트에서 데이터를 로드할 수 있는지 확인할지 여부를 나타냅니다. 기본값은 False입니다. 확인하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	지정된 열만 보관된 새 TabularDataset 개체를 반환합니다.

mount

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트에 의해 정의된 파일 스트림을 로컬 파일로 탑재하는 컨텍스트 관리자를 만듭니다.

mount(stream_column, mount_point=None)

매개 변수

Name	Description
stream_column 필수	str 탑재할 스트림 열입니다.
mount_point 필수	str 파일을 탑재할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 탑재되며, MountContext.mount_point 인스턴스 메서드를 호출하여 찾을 수 있습니다.

반환

형식	Description
<xref:azureml.dataprep.fuse.daemon.MountContext>	탑재의 수명 주기를 관리할 컨텍스트 관리자를 반환합니다.

partition_by

분할된 데이터가 복사되어 대상에서 지정한 대상으로 출력됩니다.

파티션 형식으로 출력된 데이터 경로에서 데이터 세트 만들기, 이름이 제공된 경우 데이터 세트 등록, 파티션이 있는 새 데이터 경로에 대한 데이터 세트 반환


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

매개 변수

Name	Description
partition_keys 필수	list[str] 필수, 파티션 키
target 필수	DataPath, Datastore 또는 tuple(Datastore, str) object 필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.
name 필수	str 선택 사항, 등록 이름입니다.
show_progress 필수	bool 선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.
partition_as_file_dataset 필수	선택 사항으로 파일 데이터 세트를 반환할지 여부를 나타냅니다. 기본값은 False입니다.

반환

형식	Description
TabularDataset	저장되거나 등록된 데이터 세트입니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.

첫 번째 데이터 세트에는 총 레코드와 나머지 레코드인 두 번째 데이터 세트의 대략적인 percentage이 포함되어 있습니다.

random_split(percentage, seed=None)

매개 변수

Name	Description
percentage 필수	float 데이터 세트를 분할할 대략적인 백분율입니다. 이는 0.0에서 1.0 사이의 숫자여야 합니다.
seed 필수	int 난수 생성기에 사용할 선택적 시드입니다.

반환

형식	Description
(TabularDataset, TabularDataset)	분할 후 두 데이터 세트를 나타내는 새 TabularDataset 개체의 튜플을 반환합니다.

skip

데이터 세트의 맨 위부터 지정된 개수만큼 레코드를 건너뜁니다.

skip(count)

매개 변수

Name	Description
count 필수	int 건너뛸 레코드의 수입니다.

반환

형식	Description
TabularDataset	건너뛴 레코드가 있는 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

submit_profile_run

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

실험 실행을 제출하여 데이터 프로필을 계산합니다.

데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고, 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

매개 변수

Name	Description
compute_target 필수	Union[str, ComputeTarget] 프로필 계산 실험을 실행할 컴퓨팅 대상입니다. 로컬 컴퓨팅을 사용하도록 'local'을 지정합니다. 컴퓨팅 대상에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget을 참조하세요.
experiment 필수	Experiment 실험 개체입니다. 실험에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment를 참조하세요.
cache_datastore_name 필수	str 프로필 캐시를 저장할 데이터 저장소의 이름입니다(None인 경우 기본 데이터 저장소가 사용됨).

반환

형식	Description
DatasetProfileRun	DatasetProfileRun 클래스 형식의 개체입니다.

take

데이터 세트의 맨 위부터 지정된 개수만큼 레코드 샘플을 가져옵니다.

take(count)

매개 변수

Name	Description
count 필수	int 가져올 레코드 수입니다.

반환

형식	Description
TabularDataset	샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

take_sample

데이터 세트의 임의 레코드 샘플을 대략 지정된 확률만큼 가져옵니다.

take_sample(probability, seed=None)

매개 변수

Name	Description
probability 필수	float 샘플에 포함될 레코드의 확률입니다.
seed 필수	int 난수 생성기에 사용할 선택적 시드입니다.

반환

형식	Description
TabularDataset	샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

time_after

지정된 시작 시간 후에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.

time_after(start_time, include_boundary=True, validate=True)

매개 변수

Name	Description
start_time 필수	datetime 데이터 필터링에 대한 하한 경계입니다.
include_boundary 필수	bool 경계 시간(`start_time`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

time_before

지정된 종료 시간 전에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.

time_before(end_time, include_boundary=True, validate=True)

매개 변수

Name	Description
end_time 필수	datetime 데이터 필터링에 대한 상한 경계입니다.
include_boundary 필수	bool 경계 시간(`end_time`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

time_between

지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.

time_between(start_time, end_time, include_boundary=True, validate=True)

매개 변수

Name	Description
start_time 필수	datetime 데이터 필터링에 대한 하한 경계입니다.
end_time 필수	datetime 데이터 필터링에 대한 상한 경계입니다.
include_boundary 필수	bool 경계 시간(`start_end` 및 `end_time`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

time_recent

최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.

time_recent(time_delta, include_boundary=True, validate=True)

매개 변수

Name	Description
time_delta 필수	timedelta 검색할 최근 데이터의 기간(양)입니다.
include_boundary 필수	bool 경계 시간(`time_delta`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

to_csv_files

현재 데이터 세트를 CSV 파일이 포함된 FileDataset로 변환합니다.

결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_csv_files(separator=',')

매개 변수

Name	Description
separator 필수	str 결과 파일의 값을 구분하는 데 사용할 구분 기호입니다.

반환

형식	Description
FileDataset	이 데이터 세트의 데이터가 포함된 CSV 파일 집합이 있는 새 FileDataset 개체를 반환합니다.

to_dask_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트의 데이터를 느리게 읽을 수 있는 Dask DataFrame을 반환합니다.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

매개 변수

Name	Description
sample_size 필수	스키마 및 형식을 결정하기 위해 읽을 레코드 수입니다.
dtypes 필수	예상되는 열과 해당 dtypes를 지정하는 선택적 dict입니다. sample_size가 제공되면 무시됩니다.
on_error 필수	값을 구문 분석하는 동안 오류로 인해 생성된 것과 같은 데이터 세트의 오류 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.
out_of_range_datetime 필수	Pandas가 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.

반환

형식	Description
	dask.dataframe.core.DataFrame

to_pandas_dataframe

데이터 세트의 모든 레코드를 pandas DataFrame에 로드합니다.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

매개 변수

Name	Description
on_error 필수	값을 구문 분석하는 동안 오류로 인해 생성된 것과 같은 데이터 세트의 오류 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.
out_of_range_datetime 필수	Pandas가 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.

반환

형식	Description
DataFrame	pandas DataFrame을 반환합니다.

to_parquet_files

현재 데이터 세트를 Parquet 파일이 포함된 FileDataset로 변환합니다.

결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_parquet_files()

반환

형식	Description
FileDataset	이 데이터 세트의 데이터가 포함된 Parquet 파일 집합이 있는 새 FileDataset 개체를 반환합니다.

to_spark_dataframe

데이터 세트의 모든 레코드를 Spark 데이터 프레임에 로드합니다.

to_spark_dataframe()

반환

형식	Description
DataFrame	Spark 데이터 프레임을 반환합니다.

with_timestamp_columns

데이터 세트에 대한 타임스탬프 열을 정의합니다.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

매개 변수

Name	Description
timestamp 필수	str 타임스탬프로 사용되는 열의 이름(이전에는 fine_grain_timestamp라고 했음)(선택 사항)입니다. 기본값은 None(없음)입니다.
partition_timestamp 필수	str partition_timestamp 열의 이름(이전에는 성긴 타임스탬프라고 했음)(선택 사항)입니다. 기본값은 None(없음)입니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 False입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	타임스탬프 열이 정의된 새 TabularDataset를 반환합니다.

설명

이 메서드는 타임스탬프로 사용할 열을 정의합니다. 데이터 세트의 타임스탬프 열을 사용하면 데이터를 시계열 데이터로 처리하고 추가 기능을 사용할 수 있습니다. 데이터 세트에 timestamp (used to be referred as fine_grain_timestamp) 및 partition_timestamp (used to be referred as coarse grain timestamp)가 모두 지정된 경우 두 열은 동일한 타임라인을 나타내야 합니다.

특성

timestamp_columns

타임스탬프 열을 반환합니다.

반환

형식	Description
(str, str)	데이터 세트에 대해 정의된 타임스탬프(이전에는 fine_grain_timestamp라고 했음) 및 partition_timestamp(이전에는 성긴 타임스탬프라고 했음)의 열 이름입니다.

다음을 통해 공유

TabularDataset 클래스

생성자

설명

메서드

download

매개 변수

반환

drop_columns

매개 변수

반환

filter

매개 변수

반환

설명

get_profile

매개 변수

반환

get_profile_runs

매개 변수

반환

keep_columns

매개 변수

반환

mount

매개 변수

반환

partition_by

매개 변수

반환

random_split

매개 변수

반환

skip

매개 변수

반환

submit_profile_run

매개 변수

반환

take

매개 변수

반환

take_sample

매개 변수

반환

time_after

매개 변수

반환

time_before

매개 변수

반환

time_between

매개 변수

반환

time_recent

매개 변수

반환

to_csv_files

매개 변수

반환

to_dask_dataframe

매개 변수

반환

to_pandas_dataframe

매개 변수

반환

to_parquet_files

반환

to_spark_dataframe

반환

with_timestamp_columns

매개 변수

반환

설명

특성

timestamp_columns

반환

피드백

피드백

추가 리소스