TabularDatasetFactory 클래스

참조

Azure Machine Learning에 대한 표 형식 데이터 세트를 만드는 메서드가 포함되어 있습니다.

TabularDataset는 이 클래스의 from_* 메서드(예: from_delimited_files 메서드)를 사용하여 만들어집니다.

표 형식 데이터 세트 작업에 대한 자세한 내용은 Notebook https://aka.ms/tabulardataset-samplenotebook을 참조하세요.

상속: builtins.object

TabularDatasetFactory

생성자

TabularDatasetFactory()

메서드

from_delimited_files	구분된 파일(예: CSV 및 TSV)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
from_json_lines_files	JSON Lines 파일(http://jsonlines.org/)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
from_parquet_files	Parquet 파일에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
from_sql_query	SQL 데이터베이스에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
register_dask_dataframe	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. dask 데이터 프레임에서 데이터 세트를 만듭니다.
register_pandas_dataframe	pandas DataFrame에서 데이터 세트를 만듭니다.
register_spark_dataframe	참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. spark 데이터 프레임에서 데이터 세트를 만듭니다.

from_delimited_files

구분된 파일(예: CSV 및 TSV)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

매개 변수

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

필수

단일 값 또는 URL 문자열 목록(http[s]|abfs[s]|wasb[s]), DataPath 개체 또는 및 상대 경로의 튜플일 수 있는 원본 파일의 Datastore 경로입니다. 경로 목록에는 URL과 데이터 저장소를 함께 포함할 수 없습니다.

validate: bool

필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. 유효성 검사를 사용하지 않도록 설정하려면 "infer_column_types"도 False로 설정해야 합니다.

include_path: bool

필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

infer_column_types: bool

필수

열 데이터 형식을 유추하는 부울입니다. 기본값은 True입니다. 형식 유추를 사용하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. 현재 형식 유추는 처음 200개 행만 가져옵니다. 데이터에 여러 형식의 값이 포함된 경우 set_column_types 인수를 통해 재정의로 원하는 형식을 제공하는 것이 좋습니다. set_column_types에 대한 코드 샘플은 비고 섹션을 확인합니다.

set_column_types: dict[str, DataType]

필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

separator: str

필수

열을 분할하는 데 사용되는 구분 기호입니다.

header: bool 또는 PromoteHeadersBehavior

필수

파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. 동일한 헤더를 가진 모든 파일에 대해 기본값은 True입니다. header=False이면 파일은 헤더가 없는 것으로 읽습니다. 열거형 값 PromoteHeadersBehavior를 사용하여 더 많은 옵션을 지정할 수 있습니다.

partition_format: str

필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.csv' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.csv'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

support_multi_line: bool

필수

기본적으로(support_multi_line=False) 따옴표로 묶인 필드 값을 포함한 모든 줄 바꿈은 레코드 중단으로 해석됩니다. 이러한 방식으로 데이터를 읽으면 더 빨리 읽을 수 있으며, 여러 CPU 코어에서 병렬 실행에 더욱 최적화됩니다. 그러나 이로 인해 잘못 정렬된 필드 값이 있는 레코드가 더 많이 자동으로 생성될 수 있습니다. 구분 기호로 분리된 파일이 따옴표로 묶인 줄 바꿈을 포함하는 것으로 알려진 경우 이를 True로 설정해야 합니다.

예를 들어 이 csv 파일이 지정되면 support_multi_line에 따라 데이터를 다르게 읽습니다.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2

empty_as_string: bool

필수

빈 필드 값을 빈 문자열로 로드해야 하는지 여부를 지정합니다. 기본값(False)은 빈 필드 값을 null로 읽습니다. 이를 True로 전달하면 빈 필드 값을 빈 문자열로 읽습니다. 값이 숫자 또는 날짜/시간으로 변환되면 비어 있는 값이 null로 변환되므로 아무 효과가 없습니다.

encoding: str

필수

파일 인코딩을 지정합니다. 지원되는 인코딩은 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' 및 'windows1252'입니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

TabularDataset

설명

from_delimited_files는 구분된 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 구분된 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 기본적으로 구분된 파일의 데이터에서 유추됩니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

JSON Lines 파일(http://jsonlines.org/)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

매개 변수

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

필수

validate: bool

필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

include_path: bool

필수

set_column_types: dict[str, DataType]

필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

partition_format: str

필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.jsonl' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

invalid_lines: str

필수

유효하지 않은 JSON 라인을 처리하는 방법입니다. 지원되는 값은 'error' 및 'drop'입니다.

encoding: str

필수

파일 인코딩을 지정합니다. 지원되는 인코딩은 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' 및 'windows1252'입니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

TabularDataset

설명

from_json_lines_files는 JSON Lines 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 JSON 라인 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 JSON Lines 파일에 저장된 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Parquet 파일에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

매개 변수

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

필수

validate: bool

필수

include_path: bool

필수

set_column_types: dict[str, DataType]

필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

partition_format: str

필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 '../Accounts/2019/01/01/data.parquet' 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet'는 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

TabularDataset

설명

from_parquet_files는 Parquet 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 Parquet 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 Parquet 파일에 저장된 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

SQL 데이터베이스에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

매개 변수

query: Union[DataPath, (Datastore, str)]

필수

SQL 종류의 데이터 저장소 및 쿼리입니다.

validate: bool

필수

set_column_types: dict[str, DataType]

필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

query_timeout

필수

명령 실행을 종료하고 오류를 생성하기 전 대기 시간(초 단위)을 설정합니다. 기본값은 30초입니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

TabularDataset

설명

from_sql_query는 SQL 데이터베이스에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다. 현재 MSSQLDataSource만 지원합니다.

Azure Machine Learning에서 데이터에 액세스할 수 있으려면 query로 지정된 SQL 데이터베이스가 Datastore에 있어야 하고 데이터 저장소 형식이 SQL 종류여야 합니다.

열 데이터 형식은 SQL 쿼리 결과의 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset의 지정된 열에 대한 데이터 형식이 재정의됩니다.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

dask 데이터 프레임에서 데이터 세트를 만듭니다.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

dataframe: <xref:dask.dataframe.core.DataFrame>

필수

필수, 업로드할 dask 데이터 프레임입니다.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name: str

필수

필수, 등록된 데이터 세트의 이름입니다.

description: str

필수

선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다.

tags: dict[str, str]

필수

선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

show_progress: bool

필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

등록된 데이터 세트입니다.

반환 형식

TabularDataset

register_pandas_dataframe

pandas DataFrame에서 데이터 세트를 만듭니다.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

매개 변수

dataframe: DataFrame

필수

업로드할 메모리 데이터 프레임에서 필수입니다.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name: str

필수

필수, 등록된 데이터 세트의 이름입니다.

description: int

필수

선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다.

tags: dict[str, str]

필수

선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

show_progress: bool

필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

row_group_size

필수

선택 사항입니다. parquet 파일을 작성할 때 사용할 행 그룹의 최대 크기입니다. 기본값은 None입니다.

make_target_path_unique

필수

선택 사항으로, 대상에 고유한 하위 폴더를 만들어야 하는지를 나타냅니다. 기본값은 True입니다.

반환

등록된 데이터 세트입니다.

반환 형식

TabularDataset

register_spark_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

spark 데이터 프레임에서 데이터 세트를 만듭니다.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

dataframe: DataFrame

필수

업로드할 메모리 데이터 프레임에서 필수입니다.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name: str

필수

필수, 등록된 데이터 세트의 이름입니다.

description: str

필수

선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다.

tags: dict[str, str]

필수

선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

show_progress: bool

필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

등록된 데이터 세트입니다.

반환 형식

TabularDataset

TabularDatasetFactory 클래스

생성자

메서드

from_delimited_files

매개 변수

반환

반환 형식

설명

from_json_lines_files

매개 변수

반환

반환 형식

설명

from_parquet_files

매개 변수

반환

반환 형식

설명

from_sql_query

매개 변수

반환

반환 형식

설명

register_dask_dataframe

매개 변수

반환

반환 형식

register_pandas_dataframe

매개 변수

반환

반환 형식

register_spark_dataframe

매개 변수

반환

반환 형식

피드백

피드백

추가 리소스