Sdílet prostřednictvím


TabularDatasetFactory Třída

Obsahuje metody pro vytvoření tabulkové datové sady pro Azure Machine Learning.

Vytvoří TabularDataset se pomocí from_* metod v této třídě, například metody from_delimited_files.

Další informace o práci s tabulkovými datovými sadami najdete v poznámkovém bloku https://aka.ms/tabulardataset-samplenotebook.

Dědičnost
builtins.object
TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Metody

from_delimited_files

Vytvořte tabulkovou datovou sadu pro reprezentaci tabulkových dat v souborech s oddělovači (e.g. CSV a TSV).

from_json_lines_files

Vytvořte tabulkovou datovou sadu, která bude reprezentovat tabulková data v souborech řádků JSON (http://jsonlines.org/).

from_parquet_files

Vytvořte tabulkovou datovou sadu pro reprezentaci tabulkových dat v souborech Parquet.

from_sql_query

Vytvořte tabulkovou datovou sadu pro reprezentaci tabulkových dat v databázích SQL.

register_dask_dataframe

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vytvořte datovou sadu z datového rámce dask.

register_pandas_dataframe

Vytvořte datovou sadu z datového rámce pandas.

register_spark_dataframe

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vytvořte datovou sadu z datového rámce Sparku.

from_delimited_files

Vytvořte tabulkovou datovou sadu pro reprezentaci tabulkových dat v souborech s oddělovači (e.g. CSV a TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vyžadováno

Cesta ke zdrojovým souborům, což může být jedna hodnota nebo seznam řetězce adresy URL (http[s]|abfs[s]|wasb[s]), DataPath objekt nebo řazená Datastore kolekce členů a relativní cesta. Upozorňujeme, že seznam cest nemůže obsahovat adresy URL i úložiště dat současně.

validate
bool
Vyžadováno

Logická hodnota pro ověření, jestli je možné načíst data z vrácené datové sady. Výchozí hodnota je Pravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí. Pokud chcete ověřování zakázat, musí být infer_column_types také nastavená na Hodnotu False.

include_path
bool
Vyžadováno

Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít v cestě k souboru užitečné informace.

infer_column_types
bool
Vyžadováno

Logická hodnota pro odvození datových typů sloupců Výchozí hodnota je Pravda. Odvození typu vyžaduje, aby byl zdroj dat přístupný z aktuálních výpočetních prostředků. V současné době se odvozováním typu natáhne pouze prvních 200 řádků. Pokud data obsahují více typů hodnot, je lepší zadat požadovaný typ jako přepsání prostřednictvím argumentu set_column_types. Ukázky kódu týkající se set_column_types najdete v části Poznámky.

set_column_types
dict[str, DataType]
Vyžadováno

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType.

separator
str
Vyžadováno

Oddělovač použitý k rozdělení sloupců.

header
bool nebo PromoteHeadersBehavior
Vyžadováno

Řídí způsob zvýšení úrovně záhlaví sloupců při čtení ze souborů. Výchozí hodnota je True pro všechny soubory se stejnou hlavičkou. Soubory budou číst jako bez záhlaví Když header=False. Další možnosti lze zadat pomocí hodnoty výčtu .PromoteHeadersBehavior

partition_format
str
Vyžadováno

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.csv', kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' vytvoří sloupec řetězce "Oddělení" s hodnotou "Accounts" a sloupec datetime 'PartitionDate' s hodnotou '2019-01-01'.

support_multi_line
bool
Vyžadováno

Ve výchozím nastavení (support_multi_line=Nepravda) se všechny konce řádků, včetně těch v hodnotách v uvozovaných polích, interpretují jako zalomení záznamu. Čtení dat tímto způsobem je rychlejší a optimalizovanější pro paralelní spouštění na několika jádrech procesoru. Může to však vést k tichému generování více záznamů s hodnotami nesprávně zarovnaných polí. Tato hodnota by měla být nastavena na Hodnotu True, pokud je známo, že soubory s oddělovači obsahují konce řádků v uvozových polích.

Jako příklad tohoto souboru CSV se budou data číst odlišně podle support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Vyžadováno

Určete, jestli mají být hodnoty prázdných polí načteny jako prázdné řetězce. Výchozí hodnota (False) přečte hodnoty prázdných polí jako hodnoty null. Předáním hodnoty true se hodnoty prázdných polí načtou jako prázdné řetězce. Pokud jsou hodnoty převedeny na číselné hodnoty nebo datetime, nemá to žádný vliv, protože prázdné hodnoty budou převedeny na hodnoty null.

encoding
str
Vyžadováno

Zadejte kódování souboru. Podporovaná kódování jsou utf8, iso88591, latin1, ascii, utf16, utf32, utf8bom a windows1252.

Návraty

Vrátí hodnotu TabularDataset objektu.

Návratový typ

Poznámky

from_delimited_files vytvoří objekt TabularDataset třídy, který definuje operace načítání dat ze souborů s oddělovači do tabulkové reprezentace.

Aby byla data přístupná službou Azure Machine Learning , musí být soubory s oddělovači určené cestou umístěné ve Datastore veřejných webových adresách URL nebo adresách URL objektů blob, ADLS Gen1 a ADLS Gen2 nebo za jejich pozadím. Token AAD uživatelů se použije v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experimentem Experiment.submit pro ověřování přístupu k datům. Víc se uč: https://aka.ms/data-access

Datové typy sloupců se ve výchozím nastavení odvozují z dat v souborech s oddělovači. Poskytnutí set_column_types přepíše datový typ pro zadané sloupce ve vrácené tabulkové datové sadě.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Vytvořte tabulkovou datovou sadu, která bude reprezentovat tabulková data v souborech řádků JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vyžadováno

Cesta ke zdrojovým souborům, což může být jedna hodnota nebo seznam řetězce adresy URL (http[s]|abfs[s]|wasb[s]), DataPath objekt nebo řazená Datastore kolekce členů a relativní cesta. Upozorňujeme, že seznam cest nemůže obsahovat adresy URL i úložiště dat současně.

validate
bool
Vyžadováno

Logická hodnota pro ověření, jestli je možné načíst data z vrácené datové sady. Výchozí hodnota je Pravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.

include_path
bool
Vyžadováno

Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít v cestě k souboru užitečné informace.

set_column_types
dict[str, DataType]
Vyžadováno

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType

partition_format
str
Vyžadováno

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.jsonl' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

invalid_lines
str
Vyžadováno

Jak zpracovat řádky, které jsou neplatným kódem JSON. Podporované hodnoty jsou "error" a "drop".

encoding
str
Vyžadováno

Zadejte kódování souboru. Podporovaná kódování jsou utf8, iso88591, latin1, ascii, utf16, utf32, utf8bom a windows1252.

Návraty

Vrátí hodnotu TabularDataset objektu.

Návratový typ

Poznámky

from_json_lines_files vytvoří objekt TabularDataset třídy, který definuje operace pro načtení dat ze souborů řádků JSON do tabulkové reprezentace.

Aby byla data přístupná službou Azure Machine Learning , musí být soubory řádků JSON určené cestou umístěné ve Datastore veřejných webových adresách URL nebo adresách URL objektů blob, ADLS Gen1 a ADLS Gen2 nebo za jejich pozadím. Token AAD uživatelů se použije v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experimentem Experiment.submit pro ověřování přístupu k datům. Víc se uč: https://aka.ms/data-access

Datové typy sloupců se čtou z datových typů uložených v souborech ŘÁDKŮ JSON. Poskytnutí set_column_types přepíše datový typ pro zadané sloupce ve vrácené tabulkové datové sadě.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Vytvořte tabulkovou datovou sadu pro reprezentaci tabulkových dat v souborech Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vyžadováno

Cesta ke zdrojovým souborům, což může být jedna hodnota nebo seznam řetězce adresy URL (http[s]|abfs[s]|wasb[s]), DataPath objekt nebo řazená Datastore kolekce členů a relativní cesta. Upozorňujeme, že seznam cest nemůže obsahovat adresy URL i úložiště dat současně.

validate
bool
Vyžadováno

Logická hodnota pro ověření, jestli je možné načíst data z vrácené datové sady. Výchozí hodnota je Pravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.

include_path
bool
Vyžadováno

Logická hodnota pro zachování informací o cestě jako sloupce v datové sadě. Výchozí hodnota je False. To je užitečné při čtení více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít v cestě k souboru užitečné informace.

set_column_types
dict[str, DataType]
Vyžadováno

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType.

partition_format
str
Vyžadováno

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

Návraty

Vrátí hodnotu TabularDataset objektu.

Návratový typ

Poznámky

from_parquet_files vytvoří objekt TabularDataset třídy, který definuje operace pro načtení dat ze souborů Parquet do tabulkové reprezentace.

Aby byla data přístupná službou Azure Machine Learning , musí být soubory Parquet zadané cestou umístěné ve Datastore veřejných webových adresách URL nebo adresách URL objektů blob, ADLS Gen1 a ADLS Gen2 nebo za jejich pozadím. Token AAD uživatelů se použije v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experimentem Experiment.submit pro ověřování přístupu k datům. Víc se uč: https://aka.ms/data-access

Datové typy sloupců se čtou z datových typů uložených v souborech Parquet. Poskytnutí set_column_types přepíše datový typ pro zadané sloupce ve vrácené tabulkové datové sadě.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Vytvořte tabulkovou datovou sadu pro reprezentaci tabulkových dat v databázích SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parametry

query
Union[DataPath, (Datastore, str)]
Vyžadováno

Úložiště dat typu SQL a dotaz.

validate
bool
Vyžadováno

Logická hodnota k ověření, jestli je možné načíst data z vrácené datové sady. Výchozí hodnota je True. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.

set_column_types
dict[str, DataType]
Vyžadováno

Slovník pro nastavení datového typu sloupce, kde klíč je název sloupce a hodnota je DataType.

query_timeout
Vyžadováno

Nastaví čekací dobu (v sekundách) před ukončením pokusu o spuštění příkazu a vygenerováním chyby. Výchozí hodnota je 30 sekund.

Návraty

Vrátí hodnotu TabularDataset objektu.

Návratový typ

Poznámky

from_sql_query vytvoří objekt TabularDataset třídy , který definuje operace načítání dat z databází SQL do tabulkové reprezentace. V současné době podporujeme pouze MSSQLDataSource.

Aby byla data přístupná službou Azure Machine Learning, musí být databáze SQL určená v query umístění Datastore a typ úložiště dat musí být typu SQL.

Datové typy sloupců se čtou z datových typů ve výsledku dotazu SQL. Poskytnutím set_column_types se přepíše datový typ pro zadané sloupce ve vrácené tabulkové sadě TabularDataset.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vytvořte datovou sadu z datového rámce dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametry

dataframe
<xref:dask.dataframe.core.DataFrame>
Vyžadováno

Povinný datový rámec dask, který se má nahrát.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vyžadováno

Vyžaduje se cesta k úložišti dat, kam se data parquet datového rámce nahrají. Složka guid se vygeneruje pod cílovou cestou, aby se zabránilo konfliktu.

name
str
Vyžadováno

Povinný je název registrované datové sady.

description
str
Vyžadováno

Nepovinný parametr. Textový popis datové sady. Výchozí hodnota je Žádná.

tags
dict[str, str]
Vyžadováno

Nepovinný parametr. Slovník značek klíčových hodnot pro datovou sadu. Výchozí hodnota je Žádná.

show_progress
bool
Vyžadováno

Volitelné– označuje, jestli se má v konzole zobrazit průběh nahrávání. Výchozí hodnota je Pravda.

Návraty

Registrovaná datová sada.

Návratový typ

register_pandas_dataframe

Vytvořte datovou sadu z datového rámce pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parametry

dataframe
DataFrame
Vyžadováno

Povinné, v datovém rámci paměti, který se má nahrát.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vyžadováno

Vyžaduje se cesta k úložišti dat, kam se data parquet datového rámce nahrají. Složka guid se vygeneruje pod cílovou cestou, aby se zabránilo konfliktu.

name
str
Vyžadováno

Povinný je název registrované datové sady.

description
int
Vyžadováno

Nepovinný parametr. Textový popis datové sady. Výchozí hodnota je Žádná.

tags
dict[str, str]
Vyžadováno

Nepovinný parametr. Slovník značek klíčových hodnot pro datovou sadu. Výchozí hodnota je Žádná.

show_progress
bool
Vyžadováno

Volitelné– označuje, jestli se má v konzole zobrazit průběh nahrávání. Výchozí hodnota je Pravda.

row_group_size
Vyžadováno

Nepovinný parametr. Maximální velikost skupiny řádků, která se má použít při zápisu souboru Parquet. Výchozí hodnota je Žádná.

make_target_path_unique
Vyžadováno

Volitelné– označuje, jestli se má v cíli vytvořit jedinečná podsložka. Výchozí hodnota je Pravda.

Návraty

Registrovaná datová sada.

Návratový typ

register_spark_dataframe

Poznámka

Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vytvořte datovou sadu z datového rámce Sparku.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametry

dataframe
DataFrame
Vyžadováno

Povinné, v datovém rámci paměti, který se má nahrát.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vyžadováno

Vyžaduje se cesta k úložišti dat, kam se data parquet datového rámce nahrají. Složka guid se vygeneruje pod cílovou cestou, aby se zabránilo konfliktu.

name
str
Vyžadováno

Povinný je název registrované datové sady.

description
str
Vyžadováno

Nepovinný parametr. Textový popis datové sady. Výchozí hodnota je Žádná.

tags
dict[str, str]
Vyžadováno

Nepovinný parametr. Slovník značek klíčových hodnot pro datovou sadu. Výchozí hodnota je Žádná.

show_progress
bool
Vyžadováno

Volitelné– označuje, jestli se má v konzole zobrazit průběh nahrávání. Výchozí hodnota je Pravda.

Návraty

Registrovaná datová sada.

Návratový typ