TabularDatasetFactory Classe

Riferimento

Contiene metodi per creare un set di dati tabulare per Azure Machine Learning.

Un TabularDataset oggetto viene creato usando i from_* metodi in questa classe, ad esempio il metodo from_delimited_files.

Per altre informazioni sull'uso di set di dati tabulari, vedere il notebook https://aka.ms/tabulardataset-samplenotebook.

Ereditarietà: builtins.object

TabularDatasetFactory

Costruttore

TabularDatasetFactory()

Metodi

from_delimited_files	Creare un tabulareDataset per rappresentare i dati tabulari nei file delimitati (e.g. CSV e TSV).
from_json_lines_files	Creare un TabularDataset per rappresentare i dati tabulari nei file di righe JSON (http://jsonlines.org/).
from_parquet_files	Creare un oggetto TabularDataset per rappresentare i dati tabulari nei file Parquet.
from_sql_query	Creare un oggetto TabularDataset per rappresentare i dati tabulari nei database SQL.
register_dask_dataframe	Nota Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental. Creare un set di dati da un dataframe dask.
register_pandas_dataframe	Creare un set di dati dal dataframe pandas.
register_spark_dataframe	Nota Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental. Creare un set di dati dal dataframe Spark.

from_delimited_files

Creare un tabulareDataset per rappresentare i dati tabulari nei file delimitati (e.g. CSV e TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parametri

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Necessario

Percorso dei file di origine, che possono essere un singolo valore o un elenco di stringhe url (http[s]|abfs[s]|wasb[s]), DataPath oggetto o tuple di Datastore e percorso relativo. Si noti che l'elenco di percorsi non può includere sia url che archivi dati insieme.

validate: bool

Necessario

Boolean per convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente. Per disabilitare la convalida, è necessario impostare anche "infer_column_types" su False.

include_path: bool

Necessario

Boolean per mantenere le informazioni sul percorso come colonna nel set di dati. Il valore predefinito è False. Questo è utile quando si legge più file e si vuole sapere quale file ha origine un determinato record o mantenere informazioni utili nel percorso file.

infer_column_types: bool

Necessario

Boolean per dedurre i tipi di dati di colonna. Impostazione predefinita su True. L'inferenza dei tipi richiede che l'origine dati sia accessibile dal calcolo corrente. Attualmente l'inferenza dei tipi pullerà solo le prime 200 righe. Se i dati contengono più tipi di valore, è preferibile specificare il tipo desiderato come override tramite set_column_types argomento. Controllare la sezione Osservazioni per esempi di codice relativi all'set_column_types.

set_column_types: dict[str, DataType]

Necessario

Un dizionario per impostare il tipo di dati della colonna, dove la chiave è il nome della colonna e il valore è DataType.

separator: str

Necessario

Separatore usato per dividere le colonne.

header: bool oppure PromoteHeadersBehavior

Necessario

Controlla la modalità di promozione delle intestazioni di colonna durante la lettura dai file. Il valore predefinito è True per tutti i file con la stessa intestazione. I file verranno letti come senza intestazione Quando intestazione=False. È possibile specificare altre opzioni usando il valore enumerazione di PromoteHeadersBehavior.

partition_format: str

Necessario

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.csv' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

support_multi_line: bool

Necessario

Per impostazione predefinita (support_multi_line=False), tutte le interruzioni di riga, incluse quelle in valori di campo virgolette, verranno interpretate come interruzioni di record. La lettura dei dati in questo modo è più veloce e più ottimizzata per l'esecuzione parallela in più core CPU. Tuttavia, può comportare la produzione in modo invisibile di più record con valori di campo non allineati. Questa opzione deve essere impostata su True quando i file delimitati sono noti per contenere interruzioni di riga virgolette.

Dato questo file csv come esempio, i dati verranno letti in modo diverso in base a support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2

empty_as_string: bool

Necessario

Specificare se i valori di campo vuoti devono essere caricati come stringhe vuote. Il valore predefinito (False) legge i valori di campo vuoti come null. Passando questo valore come True leggerà i valori di campo vuoti come stringhe vuote. Se i valori vengono convertiti in valori numerici o datetime, questo non ha effetto, poiché i valori vuoti verranno convertiti in valori Null.

encoding: str

Necessario

Specificare la codifica del file. Le codifica supportate sono 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' e 'windows1252'

Restituisce

Restituisce un oggetto TabularDataset.

Tipo restituito

TabularDataset

Commenti

from_delimited_files crea un oggetto di TabularDataset classe, che definisce le operazioni per caricare i dati da file delimitati in rappresentazione tabulare.

Affinché i dati siano accessibili da Azure Machine Learning, i file delimitati specificati in base al percorso devono trovarsi in Datastore o dietro url Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2. Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access

I tipi di dati di colonna vengono dedotti per impostazione predefinita dai dati nei file delimitati. Fornendo set_column_types verrà eseguito l'override del tipo di dati per le colonne specificate nel TabularDataset restituito.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Creare un TabularDataset per rappresentare i dati tabulari nei file di righe JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parametri

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Necessario

validate: bool

Necessario

Boolean per convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente.

include_path: bool

Necessario

set_column_types: dict[str, DataType]

Necessario

Un dizionario per impostare il tipo di dati della colonna, dove la chiave è il nome della colonna e il valore è DataType

partition_format: str

Necessario

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.jsonl' in cui la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

invalid_lines: str

Necessario

Come gestire le righe che non sono JSON non valide. I valori supportati sono 'error' e 'drop'.

encoding: str

Necessario

Specificare la codifica del file. Le codifica supportate sono 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' e 'windows1252'

Restituisce

Restituisce un oggetto TabularDataset.

Tipo restituito

TabularDataset

Commenti

from_json_lines_files crea un oggetto di TabularDataset classe, che definisce le operazioni per caricare i dati dai file di linee JSON nella rappresentazione tabulare.

Affinché i dati siano accessibili da Azure Machine Learning, i file di linee JSON specificati per percorso devono trovarsi in Datastore o dietro url Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2. Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access

I tipi di dati di colonna vengono letti dai tipi di dati salvati nei file di linee JSON. Fornendo set_column_types verrà eseguito l'override del tipo di dati per le colonne specificate nel TabularDataset restituito.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Creare un oggetto TabularDataset per rappresentare i dati tabulari nei file Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parametri

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Necessario

validate: bool

Necessario

Boolean per convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente.

include_path: bool

Necessario

set_column_types: dict[str, DataType]

Necessario

Un dizionario per impostare il tipo di dati della colonna, dove la chiave è il nome della colonna e il valore è DataType.

partition_format: str

Necessario

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

Restituisce

Restituisce un oggetto TabularDataset.

Tipo restituito

TabularDataset

Commenti

from_parquet_files crea un oggetto di TabularDataset classe, che definisce le operazioni per caricare i dati dai file Parquet nella rappresentazione tabulare.

Affinché i dati siano accessibili da Azure Machine Learning, i file Parquet specificati per percorso devono trovarsi in Datastore o dietro url Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2. Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access

I tipi di dati delle colonne vengono letti dai tipi di dati salvati nei file Parquet. Se si specifica set_column_types verrà eseguito l'override del tipo di dati per le colonne specificate nell'oggetto TabularDataset restituito.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Creare un oggetto TabularDataset per rappresentare i dati tabulari nei database SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parametri

query: Union[DataPath, (Datastore, str)]

Necessario

Un archivio dati di tipo SQL e una query.

validate: bool

Necessario

Valore booleano da convalidare se i dati possono essere caricati dal set di dati restituito. Il valore predefinito è True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente.

set_column_types: dict[str, DataType]

Necessario

Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType.

query_timeout

Necessario

Imposta il tempo di attesa (in secondi) prima di terminare il tentativo di eseguire un comando e generare un errore. Il valore predefinito è 30 secondi.

Restituisce

Restituisce un oggetto TabularDataset.

Tipo restituito

TabularDataset

Commenti

from_sql_query crea un oggetto di TabularDataset classe, che definisce le operazioni per caricare i dati dai database SQL in rappresentazione tabulare. Attualmente è supportato solo MSSQLDataSource.

Affinché i dati siano accessibili da Azure Machine Learning, il database SQL specificato da query deve trovarsi in Datastore e il tipo di archivio dati deve essere di tipo SQL.

I tipi di dati delle colonne vengono letti dai tipi di dati nel risultato della query SQL. Se si specifica set_column_types , verrà eseguito l'override del tipo di dati per le colonne specificate nell'oggetto TabularDataset restituito.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Nota

Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental.

Creare un set di dati da un dataframe dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametri

dataframe: <xref:dask.dataframe.core.DataFrame>

Necessario

Dataframe dask obbligatorio da caricare.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Necessario

Obbligatorio, percorso dell'archivio dati in cui verranno caricati i dati parquet del dataframe. Verrà generata una cartella GUID nel percorso di destinazione per evitare conflitti.

name: str

Necessario

Obbligatorio, nome del set di dati registrato.

description: str

Necessario

facoltativo. Descrizione testuale del set di dati. Il valore predefinito è Nessuno.

tags: dict[str, str]

Necessario

facoltativo. Dizionario dei tag chiave-valore per assegnare il set di dati. Il valore predefinito è Nessuno.

show_progress: bool

Necessario

Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Il valore predefinito è True.

Restituisce

Set di dati registrato.

Tipo restituito

TabularDataset

register_pandas_dataframe

Creare un set di dati dal dataframe pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parametri

dataframe: DataFrame

Necessario

Obbligatorio, nel dataframe di memoria da caricare.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Necessario

Obbligatorio, percorso dell'archivio dati in cui verranno caricati i dati parquet del dataframe. Verrà generata una cartella GUID nel percorso di destinazione per evitare conflitti.

name: str

Necessario

Obbligatorio, nome del set di dati registrato.

description: int

Necessario

facoltativo. Descrizione testuale del set di dati. Il valore predefinito è Nessuno.

tags: dict[str, str]

Necessario

facoltativo. Dizionario dei tag chiave-valore per assegnare il set di dati. Il valore predefinito è Nessuno.

show_progress: bool

Necessario

Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Il valore predefinito è True.

row_group_size

Necessario

facoltativo. Dimensioni massime del gruppo di righe da utilizzare per la scrittura di file Parquet. Il valore predefinito è Nessuno.

make_target_path_unique

Necessario

Facoltativo, indica se è necessario creare una sottocartella univoca nella destinazione. Il valore predefinito è True.

Restituisce

Set di dati registrato.

Tipo restituito

TabularDataset

register_spark_dataframe

Nota

Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental.

Creare un set di dati dal dataframe Spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametri

dataframe: DataFrame

Necessario

Obbligatorio, nel dataframe di memoria da caricare.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Necessario

Obbligatorio, percorso dell'archivio dati in cui verranno caricati i dati parquet del dataframe. Verrà generata una cartella GUID nel percorso di destinazione per evitare conflitti.

name: str

Necessario

Obbligatorio, nome del set di dati registrato.

description: str

Necessario

facoltativo. Descrizione testuale del set di dati. Il valore predefinito è Nessuno.

tags: dict[str, str]

Necessario

facoltativo. Dizionario dei tag chiave-valore per assegnare il set di dati. Il valore predefinito è Nessuno.

show_progress: bool

Necessario

Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Il valore predefinito è True.

Restituisce

Set di dati registrato.

Tipo restituito

TabularDataset

Condividi tramite

TabularDatasetFactory Classe

Costruttore

Metodi

from_delimited_files

Parametri

Restituisce

Tipo restituito

Commenti

from_json_lines_files

Parametri

Restituisce

Tipo restituito

Commenti

from_parquet_files

Parametri

Restituisce

Tipo restituito

Commenti

from_sql_query

Parametri

Restituisce

Tipo restituito

Commenti

register_dask_dataframe

Parametri

Restituisce

Tipo restituito

register_pandas_dataframe

Parametri

Restituisce

Tipo restituito

register_spark_dataframe

Parametri

Restituisce

Tipo restituito

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive