TabularDataset 클래스

Azure Machine Learning에 사용할 테이블 형식 데이터 세트를 나타냅니다.

TabularDataset은 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가되고, 변경이 불가능한 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 원본에서 데이터가 로드되지 않습니다.

TabularDataset은 TabularDatasetFactory 클래스의 from_delimited_files와 같은 메서드를 사용하여 만들어집니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요.

TabularDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.

상속
TabularDataset

생성자

TabularDataset()

설명

TabularDatasetFactory 클래스의 from_* 메서드를 사용하여 CSV, TSV, Parquet 파일 또는 SQL 쿼리에서 TabularDataset를 만들 수 있습니다. 레코드 분할, 건너뛰기 및 필터링과 같은 TabularDataset에서 하위 집합 작업을 수행할 수 있습니다. 하위 집합의 결과는 항상 하나 이상의 새 TabularDataset 개체입니다.

TabularDataset를 pandas DataFrame과 같은 다른 형식으로 변환할 수도 있습니다. 실제 데이터 로드는 TabularDataset가 다른 스토리지 메커니즘(예: pandas DataFrame 또는 CSV 파일)에 데이터를 전달하도록 요청될 때 발생합니다.

TabularDataset은 실험 실행의 입력으로 사용할 수 있습니다. 지정된 이름의 작업 영역에 등록할 수도 있고 나중에 해당 이름으로 검색할 수도 있습니다.

메서드

download

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.

drop_columns

데이터 세트에서 지정한 열을 삭제합니다.

시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

filter

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.

get_profile

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.

get_profile_runs

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.

keep_columns

지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.

시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

mount

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트에 의해 정의된 파일 스트림을 로컬 파일로 탑재하는 컨텍스트 관리자를 만듭니다.

partition_by

분할된 데이터가 복사되어 대상에서 지정한 대상으로 출력됩니다.

파티션 형식으로 출력된 데이터 경로에서 데이터 세트 만들기, 이름이 제공된 경우 데이터 세트 등록, 파티션이 있는 새 데이터 경로에 대한 데이터 세트 반환


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.

첫 번째 데이터 세트에는 총 레코드와 나머지 레코드인 두 번째 데이터 세트의 대략적인 percentage이 포함되어 있습니다.

skip

데이터 세트의 맨 위부터 지정된 개수만큼 레코드를 건너뜁니다.

submit_profile_run

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

실험 실행을 제출하여 데이터 프로필을 계산합니다.

데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고, 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.

take

데이터 세트의 맨 위부터 지정된 개수만큼 레코드 샘플을 가져옵니다.

take_sample

데이터 세트의 임의 레코드 샘플을 대략 지정된 확률만큼 가져옵니다.

time_after

지정된 시작 시간 후에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.

time_before

지정된 종료 시간 전에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.

time_between

지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.

time_recent

최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.

to_csv_files

현재 데이터 세트를 CSV 파일이 포함된 FileDataset로 변환합니다.

결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_dask_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트의 데이터를 느리게 읽을 수 있는 Dask DataFrame을 반환합니다.

to_pandas_dataframe

데이터 세트의 모든 레코드를 pandas DataFrame에 로드합니다.

to_parquet_files

현재 데이터 세트를 Parquet 파일이 포함된 FileDataset로 변환합니다.

결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_spark_dataframe

데이터 세트의 모든 레코드를 Spark 데이터 프레임에 로드합니다.

with_timestamp_columns

데이터 세트에 대한 타임스탬프 열을 정의합니다.

download

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

매개 변수

stream_column
str
필수

다운로드할 스트림 열입니다.

target_path
str
필수

파일을 다운로드할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 다운로드됩니다.

overwrite
bool
필수

기존 파일을 덮어쓸지 여부입니다. 기본값은 False입니다. 덮어쓰기가 True로 설정된 경우 기존 파일을 덮어씁니다. 그렇지 않으면 예외가 발생합니다.

ignore_not_found
bool
필수

데이터 세트가 가리키는 일부 파일을 찾을 수 없는 경우 다운로드 실패 여부를 나타냅니다. 기본값은 true입니다. ignore_not_found가 False로 설정된 경우 어떤 이유로든 파일 다운로드가 실패하면 다운로드가 실패합니다. 그렇지 않으면 찾을 수 없는 오류에 대한 경고가 기록되고 다른 오류 형식이 발생하지 않는 한 다운로드가 성공합니다.

반환

다운로드한 각 파일에 대한 파일 경로의 배열을 반환합니다.

반환 형식

drop_columns

데이터 세트에서 지정한 열을 삭제합니다.

시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

drop_columns(columns)

매개 변수

columns
Union[str, list[str]]
필수

삭제할 열의 이름 또는 이름 목록입니다.

반환

지정한 열이 삭제된 새 TabularDataset 개체를 반환합니다.

반환 형식

filter

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.

filter(expression)

매개 변수

expression
any
필수

계산할 식입니다.

반환

수정된 데이터 집합(등록되지 않음)입니다.

반환 형식

설명

식은 열 이름으로 데이터 집합을 인덱싱하여 시작됩니다. 다양한 함수와 연산자를 지원하며 논리 연산자를 사용하여 결합할 수 있습니다. 결과 식은 정의된 위치가 아니라 데이터 풀이 발생할 때 각 레코드에 대해 지연 평가됩니다.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.

get_profile(workspace=None)

매개 변수

workspace
Workspace
필수

프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필수입니다. 작업 영역에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace를 참조하세요.

반환

DatasetProfile 형식의 최신 프로필 실행에서 얻은 프로필 결과입니다.

반환 형식

get_profile_runs

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.

get_profile_runs(workspace=None)

매개 변수

workspace
Workspace
필수

프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필수입니다. 작업 영역에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace를 참조하세요.

반환

azureml.core.Run 형식의 반복기 개체입니다.

반환 형식

keep_columns

지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.

시계열 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

keep_columns(columns, validate=False)

매개 변수

columns
Union[str, list[str]]
필수

유지할 열의 이름 또는 이름 목록입니다.

validate
bool
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 확인할지 여부를 나타냅니다. 기본값은 False입니다. 확인하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

지정된 열만 보관된 새 TabularDataset 개체를 반환합니다.

반환 형식

mount

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트에 의해 정의된 파일 스트림을 로컬 파일로 탑재하는 컨텍스트 관리자를 만듭니다.

mount(stream_column, mount_point=None)

매개 변수

stream_column
str
필수

탑재할 스트림 열입니다.

mount_point
str
필수

파일을 탑재할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 탑재되며, MountContext.mount_point 인스턴스 메서드를 호출하여 찾을 수 있습니다.

반환

탑재의 수명 주기를 관리할 컨텍스트 관리자를 반환합니다.

반환 형식

<xref:azureml.dataprep.fuse.daemon.MountContext>

partition_by

분할된 데이터가 복사되어 대상에서 지정한 대상으로 출력됩니다.

파티션 형식으로 출력된 데이터 경로에서 데이터 세트 만들기, 이름이 제공된 경우 데이터 세트 등록, 파티션이 있는 새 데이터 경로에 대한 데이터 세트 반환


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

매개 변수

partition_keys
list[str]
필수

필수, 파티션 키

target
DataPath, Datastore 또는 tuple(Datastore, str) object
필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name
str
필수

선택 사항, 등록 이름입니다.

show_progress
bool
필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

partition_as_file_dataset
필수

선택 사항으로 파일 데이터 세트를 반환할지 여부를 나타냅니다. 기본값은 False입니다.

반환

저장되거나 등록된 데이터 세트입니다.

반환 형식

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 대략 두 부분으로 분할합니다.

첫 번째 데이터 세트에는 총 레코드와 나머지 레코드인 두 번째 데이터 세트의 대략적인 percentage이 포함되어 있습니다.

random_split(percentage, seed=None)

매개 변수

percentage
float
필수

데이터 세트를 분할할 대략적인 백분율입니다. 이는 0.0에서 1.0 사이의 숫자여야 합니다.

seed
int
필수

난수 생성기에 사용할 선택적 시드입니다.

반환

분할 후 두 데이터 세트를 나타내는 새 TabularDataset 개체의 튜플을 반환합니다.

반환 형식

skip

데이터 세트의 맨 위부터 지정된 개수만큼 레코드를 건너뜁니다.

skip(count)

매개 변수

count
int
필수

건너뛸 레코드의 수입니다.

반환

건너뛴 레코드가 있는 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

반환 형식

submit_profile_run

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

실험 실행을 제출하여 데이터 프로필을 계산합니다.

데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고, 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

매개 변수

compute_target
Union[str, ComputeTarget]
필수

프로필 계산 실험을 실행할 컴퓨팅 대상입니다. 로컬 컴퓨팅을 사용하도록 'local'을 지정합니다. 컴퓨팅 대상에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget을 참조하세요.

experiment
Experiment
필수

실험 개체입니다. 실험에 대한 자세한 내용은 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment를 참조하세요.

cache_datastore_name
str
필수

프로필 캐시를 저장할 데이터 저장소의 이름입니다(None인 경우 기본 데이터 저장소가 사용됨).

반환

DatasetProfileRun 클래스 형식의 개체입니다.

반환 형식

take

데이터 세트의 맨 위부터 지정된 개수만큼 레코드 샘플을 가져옵니다.

take(count)

매개 변수

count
int
필수

가져올 레코드 수입니다.

반환

샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

반환 형식

take_sample

데이터 세트의 임의 레코드 샘플을 대략 지정된 확률만큼 가져옵니다.

take_sample(probability, seed=None)

매개 변수

probability
float
필수

샘플에 포함될 레코드의 확률입니다.

seed
int
필수

난수 생성기에 사용할 선택적 시드입니다.

반환

샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

반환 형식

time_after

지정된 시작 시간 후에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.

time_after(start_time, include_boundary=True, validate=True)

매개 변수

start_time
datetime
필수

데이터 필터링에 대한 하한 경계입니다.

include_boundary
bool
필수

경계 시간(start_time)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.

validate
bool
필수

지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

필터링된 새 데이터 세트가 있는 TabularDataset입니다.

반환 형식

time_before

지정된 종료 시간 전에 타임스탬프 열을 사용하여 TabularDataset를 필터링합니다.

time_before(end_time, include_boundary=True, validate=True)

매개 변수

end_time
datetime
필수

데이터 필터링에 대한 상한 경계입니다.

include_boundary
bool
필수

경계 시간(end_time)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.

validate
bool
필수

지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

필터링된 새 데이터 세트가 있는 TabularDataset입니다.

반환 형식

time_between

지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.

time_between(start_time, end_time, include_boundary=True, validate=True)

매개 변수

start_time
datetime
필수

데이터 필터링에 대한 하한 경계입니다.

end_time
datetime
필수

데이터 필터링에 대한 상한 경계입니다.

include_boundary
bool
필수

경계 시간(start_endend_time)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.

validate
bool
필수

지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

필터링된 새 데이터 세트가 있는 TabularDataset입니다.

반환 형식

time_recent

최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.

time_recent(time_delta, include_boundary=True, validate=True)

매개 변수

time_delta
timedelta
필수

검색할 최근 데이터의 기간(양)입니다.

include_boundary
bool
필수

경계 시간(time_delta)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.

validate
bool
필수

지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 true입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

필터링된 새 데이터 세트가 있는 TabularDataset입니다.

반환 형식

to_csv_files

현재 데이터 세트를 CSV 파일이 포함된 FileDataset로 변환합니다.

결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_csv_files(separator=',')

매개 변수

separator
str
필수

결과 파일의 값을 구분하는 데 사용할 구분 기호입니다.

반환

이 데이터 세트의 데이터가 포함된 CSV 파일 집합이 있는 새 FileDataset 개체를 반환합니다.

반환 형식

to_dask_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

데이터 세트의 데이터를 느리게 읽을 수 있는 Dask DataFrame을 반환합니다.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

매개 변수

sample_size
필수

스키마 및 형식을 결정하기 위해 읽을 레코드 수입니다.

dtypes
필수

예상되는 열과 해당 dtypes를 지정하는 선택적 dict입니다. sample_size가 제공되면 무시됩니다.

on_error
필수

값을 구문 분석하는 동안 오류로 인해 생성된 것과 같은 데이터 세트의 오류 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.

out_of_range_datetime
필수

Pandas가 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.

반환

dask.dataframe.core.DataFrame

to_pandas_dataframe

데이터 세트의 모든 레코드를 pandas DataFrame에 로드합니다.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

매개 변수

on_error
필수

값을 구문 분석하는 동안 오류로 인해 생성된 것과 같은 데이터 세트의 오류 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.

out_of_range_datetime
필수

Pandas가 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 'null'(null로 대체)과 'fail'(예외 발생)입니다.

반환

pandas DataFrame을 반환합니다.

반환 형식

to_parquet_files

현재 데이터 세트를 Parquet 파일이 포함된 FileDataset로 변환합니다.

결과 데이터 세트에는 각각 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_parquet_files()

반환

이 데이터 세트의 데이터가 포함된 Parquet 파일 집합이 있는 새 FileDataset 개체를 반환합니다.

반환 형식

to_spark_dataframe

데이터 세트의 모든 레코드를 Spark 데이터 프레임에 로드합니다.

to_spark_dataframe()

반환

Spark 데이터 프레임을 반환합니다.

반환 형식

with_timestamp_columns

데이터 세트에 대한 타임스탬프 열을 정의합니다.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

매개 변수

timestamp
str
필수

타임스탬프로 사용되는 열의 이름(이전에는 fine_grain_timestamp라고 했음)(선택 사항)입니다. 기본값은 None(없음)입니다.

partition_timestamp
str
필수

partition_timestamp 열의 이름(이전에는 성긴 타임스탬프라고 했음)(선택 사항)입니다. 기본값은 None(없음)입니다.

validate
bool
필수

지정된 열이 데이터 세트에 있는지에 대한 유효성을 검사할지 여부를 나타냅니다. 기본값은 False입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

타임스탬프 열이 정의된 새 TabularDataset를 반환합니다.

반환 형식

설명

이 메서드는 타임스탬프로 사용할 열을 정의합니다. 데이터 세트의 타임스탬프 열을 사용하면 데이터를 시계열 데이터로 처리하고 추가 기능을 사용할 수 있습니다. 데이터 세트에 timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp)가 모두 지정된 경우 두 열은 동일한 타임라인을 나타내야 합니다.

특성

timestamp_columns

타임스탬프 열을 반환합니다.

반환

데이터 세트에 대해 정의된 타임스탬프(이전에는 fine_grain_timestamp라고 했음) 및 partition_timestamp(이전에는 성긴 타임스탬프라고 했음)의 열 이름입니다.

반환 형식

(str, str)