TabularDatasetFactory Clase

Referencia

Contiene métodos para crear un conjunto de datos tabulares para Azure Machine Learning.

TabularDataset se crea mediante los métodos from_* de esta clase, por ejemplo, el método from_delimited_files.

Para más información sobre cómo trabajar con conjuntos de datos tabulares, consulte el cuaderno https://aka.ms/tabulardataset-samplenotebook.

Herencia: builtins.object

TabularDatasetFactory

Constructor

TabularDatasetFactory()

Métodos

from_delimited_files	Crea un objeto TabularDataset para representar datos tabulares en archivos delimitados (por ejemplo, CSV y TSV).
from_json_lines_files	Crea un objeto TabularDataset para representar datos tabulares en archivos de líneas JSON (http://jsonlines.org/).
from_parquet_files	Crea un objeto TabularDataset para representar datos tabulares en archivos Parquet.
from_sql_query	Crea un objeto TabularDataset para representar datos tabulares en bases de datos SQL.
register_dask_dataframe	Nota Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información. Creación de un conjunto de datos a partir de un dataframe de dask.
register_pandas_dataframe	Creación de un conjunto de datos a partir de un dataframe de Pandas
register_spark_dataframe	Nota Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información. Creación de un conjunto de datos a partir de un dataframe de spark.

from_delimited_files

Crea un objeto TabularDataset para representar datos tabulares en archivos delimitados (por ejemplo, CSV y TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parámetros

Nombre	Description
path Requerido	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]\|abfs[s]\|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.
validate Requerido	bool Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el recurso de proceso actual. Para deshabilitar la validación, "infer_column_types" también debe establecerse en False.
include_path Requerido	bool Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
infer_column_types Requerido	bool Valor booleano para deducir tipos de datos de columna. El valor predeterminado es True. La inferencia de tipos requiere que el origen de datos sea accesible desde el proceso actual. Actualmente, la inferencia de tipos solo extraerá las primeras 200 filas. Si los datos contienen varios tipos de valor, es mejor proporcionar el tipo deseado como invalidación a través del argumento set_column_types. Consulte la sección Comentarios para obtener ejemplos de código sobre set_column_types.
set_column_types Requerido	dict[str, DataType] Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType.
separator Requerido	str Separador utilizado para dividir columnas.
header Requerido	bool o PromoteHeadersBehavior Controla cómo se promueven los encabezados de columna al leer archivos. El valor predeterminado es True para todos los archivos que tienen el mismo encabezado. Los archivos se leerán como si no tuviesen ningún encabezado cuando header=False. Se pueden especificar más opciones mediante el valor de enumeración de PromoteHeadersBehavior.
partition_format Requerido	str Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.csv" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".
support_multi_line Requerido	bool De manera predeterminada (support_multi_line=False), todos los saltos de línea, incluidos los de los valores de campo entre comillas, se interpretarán como un salto de registro. Leer los datos de esta manera es una forma más rápida y optimizada de ejecutar en paralelo en varios núcleos de CPU. Sin embargo, puede provocar la generación silenciosa de más registros con valores de campo mal alineados. Debe establecerse en True cuando se sabe que los archivos delimitados contienen saltos de línea entre comillas. Dado este archivo CSV como ejemplo, los datos se leerán de forma diferente en función de support_multi_line. A,B,C A1,B1,C1 A2,"B 2",C2 `from azureml.core import Dataset, Datastore from azureml.data.datapath import DataPath # default behavior: support_multi_line=False dataset = Dataset.Tabular.from_delimited_files(path=datastore_path) print(dataset.to_pandas_dataframe()) # A B C # 0 A1 B1 C1 # 1 A2 B None # 2 2" C2 None # to handle quoted line breaks dataset = Dataset.Tabular.from_delimited_files(path=datastore_path, support_multi_line=True) print(dataset.to_pandas_dataframe()) # A B C # 0 A1 B1 C1 # 1 A2 B\r\n2 C2`
empty_as_string Requerido	bool Especifica si los valores de campo vacíos se deben cargar como cadenas vacías. El valor predeterminado (False) leerá los valores de campo vacíos como valores NULL. Si se pasa como True, se leerán los valores de campo vacíos como cadenas vacías. Si los valores se convierten en numéricos o datetime, esto no tendrá ningún efecto, ya que los valores vacíos se convertirán en valores NULL.
encoding Requerido	str Especifica la codificación del archivo. Las codificaciones admitidas son "utf8", "iso88591", "latin1","ascii","utf16", "utf32", "tf8bom" y "windows1252".

Devoluciones

Tipo	Description
TabularDataset	Devuelve un objeto TabularDataset.

Comentarios

from_delimited_files crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de archivos delimitados en la representación tabular.

Para que Azure Machine Learning pueda acceder a los datos, los archivos delimitados especificados por la ruta de acceso se deben ubicar en Datastore o detrás de direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2. El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access

Los tipos de datos de columna se deducen de manera predeterminada a partir de los datos de los archivos delimitados. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Crea un objeto TabularDataset para representar datos tabulares en archivos de líneas JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parámetros

Nombre	Description
path Requerido	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]\|abfs[s]\|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.
validate Requerido	bool Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.
include_path Requerido	bool Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
set_column_types Requerido	dict[str, DataType] Diccionario para establecer el tipo de datos de columna, donde la clave es el nombre de columna y el valor es DataType.
partition_format Requerido	str Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.jsonl" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".
invalid_lines Requerido	str Cómo controlar las líneas que son JSON no válidos. Los valores admitidos son "error" y "drop".
encoding Requerido	str Especifica la codificación del archivo. Las codificaciones admitidas son "utf8", "iso88591", "latin1","ascii","utf16", "utf32", "tf8bom" y "windows1252".

Devoluciones

Tipo	Description
TabularDataset	Devuelve un objeto TabularDataset.

Comentarios

from_json_lines_files crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de archivos de líneas JSON en la representación tabular.

Para que Azure Machine Learning pueda acceder a los datos, los archivos de líneas JSON especificados por la ruta de acceso se deben ubicar en Datastore o detrás de direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2. El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access

Los tipos de datos de columna se leen de los tipos de datos guardados en los archivos de líneas JSON. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Crea un objeto TabularDataset para representar datos tabulares en archivos Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parámetros

Nombre	Description
path Requerido	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]\|abfs[s]\|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.
validate Requerido	bool Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.
include_path Requerido	bool Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
set_column_types Requerido	dict[str, DataType] Diccionario para establecer el tipo de datos de columna, donde la clave es el nombre de columna y el valor es DataType.
partition_format Requerido	str Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

Devoluciones

Tipo	Description
TabularDataset	Devuelve un objeto TabularDataset.

Comentarios

from_parquet_files crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de archivos Parquet en la representación tabular.

Para que Azure Machine Learning pueda acceder a los datos, los archivos Parquet especificados por la ruta de acceso deben encontrarse en Datastore direcciones URL web públicas o detrás de blobs, ADLS Gen1 y ADLS Gen2. El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access

Los tipos de datos de columna se leen de los tipos de datos guardados en los archivos Parquet. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Crea un objeto TabularDataset para representar datos tabulares en bases de datos SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parámetros

Nombre	Description
query Requerido	Union[DataPath, (Datastore, str)] Consulta y almacén de datos de tipo SQL.
validate Requerido	bool Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.
set_column_types Requerido	dict[str, DataType] Diccionario para establecer el tipo de datos de columna, donde la clave es el nombre de columna y el valor es DataType.
query_timeout Requerido	Establece el tiempo de espera (en segundos) hasta que se interrumpe el intento de ejecutar un comando y se genera un error. El valor predeterminado es 30 segundos.

Devoluciones

Tipo	Description
TabularDataset	Devuelve un objeto TabularDataset.

Comentarios

from_sql_query crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de bases de datos SQL en la representación tabular. Actualmente, solo se admite MSSQLDataSource.

Para que Azure Machine Learning pueda acceder a los datos, la base de datos SQL especificada por query debe estar ubicada en Datastore y el almacén de datos debe ser de tipo SQL.

Los tipos de datos de columna se leen de los tipos de datos del resultado de la consulta SQL. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Nota

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Creación de un conjunto de datos a partir de un dataframe de dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parámetros

Nombre	Description
dataframe Requerido	<xref:dask.dataframe.core.DataFrame> Obligatorio, un dataframe de dask que se va a cargar.
target Requerido	Union[DataPath, Datastore, tuple(Datastore, str)] Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos del parquet de la trama de datos. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.
name Requerido	str Obligatorio, el nombre del conjunto de datos registrado.
description Requerido	str Opcional. Descripción de texto del conjunto de datos. El valor predeterminado es None.
tags Requerido	dict[str, str] Opcional. Diccionario de etiquetas clave-valor para proporcionar al conjunto de datos. El valor predeterminado es None.
show_progress Requerido	bool Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.

Devoluciones

Tipo	Description
TabularDataset	Conjunto de datos registrado.

register_pandas_dataframe

Creación de un conjunto de datos a partir de un dataframe de Pandas

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parámetros

Nombre	Description
dataframe Requerido	DataFrame Obligatorio, en el dataframe de memoria que se va a cargar.
target Requerido	Union[DataPath, Datastore, tuple(Datastore, str)] Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos de Parquet del dataframe. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.
name Requerido	str Obligatorio, el nombre del conjunto de datos registrado.
description Requerido	int Opcional. Descripción de texto del conjunto de datos. El valor predeterminado es None.
tags Requerido	dict[str, str] Opcional. Diccionario de etiquetas clave-valor para proporcionar al conjunto de datos. El valor predeterminado es None.
show_progress Requerido	bool Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.
row_group_size Requerido	Opcional. Tamaño máximo del grupo de filas que se va a usar al escribir un archivo parquet. El valor predeterminado es None.
make_target_path_unique Requerido	Opcional, indica si se debe crear una subcarpeta única en el destino. El valor predeterminado es True.

Devoluciones

Tipo	Description
TabularDataset	El conjunto de datos registrado.

register_spark_dataframe

Nota

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Creación de un conjunto de datos a partir de un dataframe de spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parámetros

Nombre	Description
dataframe Requerido	DataFrame Obligatorio, en el dataframe de memoria que se va a cargar.
target Requerido	Union[DataPath, Datastore, tuple(Datastore, str)] Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos de Parquet del dataframe. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.
name Requerido	str Obligatorio, el nombre del conjunto de datos registrado.
description Requerido	str Opcional. Descripción de texto del conjunto de datos. El valor predeterminado es None.
tags Requerido	dict[str, str] Opcional. Diccionario de etiquetas clave-valor para proporcionar al conjunto de datos. El valor predeterminado es None.
show_progress Requerido	bool Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.

Devoluciones

Tipo	Description
TabularDataset	Conjunto de datos registrado.

Compartir a través de

TabularDatasetFactory Clase

Constructor

Métodos

from_delimited_files

Parámetros

Devoluciones

Comentarios

from_json_lines_files

Parámetros

Devoluciones

Comentarios

from_parquet_files

Parámetros

Devoluciones

Comentarios

from_sql_query

Parámetros

Devoluciones

Comentarios

register_dask_dataframe

Parámetros

Devoluciones

register_pandas_dataframe

Parámetros

Devoluciones

register_spark_dataframe

Parámetros

Devoluciones

Comentarios

Recursos adicionales