TabularDatasetFactory Clase

Contiene métodos para crear un conjunto de datos tabulares para Azure Machine Learning.

TabularDataset se crea mediante los métodos from_* de esta clase, por ejemplo, el método from_delimited_files.

Para más información sobre cómo trabajar con conjuntos de datos tabulares, consulte el cuaderno https://aka.ms/tabulardataset-samplenotebook.

Herencia
builtins.object
TabularDatasetFactory

Constructor

TabularDatasetFactory()

Métodos

from_delimited_files

Crea un objeto TabularDataset para representar datos tabulares en archivos delimitados (por ejemplo, CSV y TSV).

from_json_lines_files

Crea un objeto TabularDataset para representar datos tabulares en archivos de líneas JSON (http://jsonlines.org/).

from_parquet_files

Crea un objeto TabularDataset para representar datos tabulares en archivos Parquet.

from_sql_query

Crea un objeto TabularDataset para representar datos tabulares en bases de datos SQL.

register_dask_dataframe

Nota

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Creación de un conjunto de datos a partir de un dataframe de dask.

register_pandas_dataframe

Creación de un conjunto de datos a partir de un dataframe de Pandas

register_spark_dataframe

Nota

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Creación de un conjunto de datos a partir de un dataframe de spark.

from_delimited_files

Crea un objeto TabularDataset para representar datos tabulares en archivos delimitados (por ejemplo, CSV y TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parámetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Requerido

Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]|abfs[s]|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.

validate
bool
Requerido

Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el recurso de proceso actual. Para deshabilitar la validación, "infer_column_types" también debe establecerse en False.

include_path
bool
Requerido

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

infer_column_types
bool
Requerido

Valor booleano para deducir tipos de datos de columna. El valor predeterminado es True. La inferencia de tipos requiere que el origen de datos sea accesible desde el proceso actual. Actualmente, la inferencia de tipos solo extraerá las primeras 200 filas. Si los datos contienen varios tipos de valor, es mejor proporcionar el tipo deseado como invalidación a través del argumento set_column_types. Consulte la sección Comentarios para obtener ejemplos de código sobre set_column_types.

set_column_types
dict[str, DataType]
Requerido

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType.

separator
str
Requerido

Separador utilizado para dividir columnas.

header
bool o PromoteHeadersBehavior
Requerido

Controla cómo se promueven los encabezados de columna al leer archivos. El valor predeterminado es True para todos los archivos que tienen el mismo encabezado. Los archivos se leerán como si no tuviesen ningún encabezado cuando header=False. Se pueden especificar más opciones mediante el valor de enumeración de PromoteHeadersBehavior.

partition_format
str
Requerido

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.csv" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

support_multi_line
bool
Requerido

De manera predeterminada (support_multi_line=False), todos los saltos de línea, incluidos los de los valores de campo entre comillas, se interpretarán como un salto de registro. Leer los datos de esta manera es una forma más rápida y optimizada de ejecutar en paralelo en varios núcleos de CPU. Sin embargo, puede provocar la generación silenciosa de más registros con valores de campo mal alineados. Debe establecerse en True cuando se sabe que los archivos delimitados contienen saltos de línea entre comillas.

Dado este archivo CSV como ejemplo, los datos se leerán de forma diferente en función de support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Requerido

Especifica si los valores de campo vacíos se deben cargar como cadenas vacías. El valor predeterminado (False) leerá los valores de campo vacíos como valores NULL. Si se pasa como True, se leerán los valores de campo vacíos como cadenas vacías. Si los valores se convierten en numéricos o datetime, esto no tendrá ningún efecto, ya que los valores vacíos se convertirán en valores NULL.

encoding
str
Requerido

Especifica la codificación del archivo. Las codificaciones admitidas son "utf8", "iso88591", "latin1","ascii","utf16", "utf32", "tf8bom" y "windows1252".

Devoluciones

Devuelve un objeto TabularDataset.

Tipo de valor devuelto

Comentarios

from_delimited_files crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de archivos delimitados en la representación tabular.

Para que Azure Machine Learning pueda acceder a los datos, los archivos delimitados especificados por la ruta de acceso se deben ubicar en Datastore o detrás de direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2. El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access

Los tipos de datos de columna se deducen de manera predeterminada a partir de los datos de los archivos delimitados. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Crea un objeto TabularDataset para representar datos tabulares en archivos de líneas JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parámetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Requerido

Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]|abfs[s]|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.

validate
bool
Requerido

Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

include_path
bool
Requerido

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

set_column_types
dict[str, DataType]
Requerido

Diccionario para establecer el tipo de datos de columna, donde la clave es el nombre de columna y el valor es DataType.

partition_format
str
Requerido

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.jsonl" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

invalid_lines
str
Requerido

Cómo controlar las líneas que son JSON no válidos. Los valores admitidos son "error" y "drop".

encoding
str
Requerido

Especifica la codificación del archivo. Las codificaciones admitidas son "utf8", "iso88591", "latin1","ascii","utf16", "utf32", "tf8bom" y "windows1252".

Devoluciones

Devuelve un objeto TabularDataset.

Tipo de valor devuelto

Comentarios

from_json_lines_files crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de archivos de líneas JSON en la representación tabular.

Para que Azure Machine Learning pueda acceder a los datos, los archivos de líneas JSON especificados por la ruta de acceso se deben ubicar en Datastore o detrás de direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2. El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access

Los tipos de datos de columna se leen de los tipos de datos guardados en los archivos de líneas JSON. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Crea un objeto TabularDataset para representar datos tabulares en archivos Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parámetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Requerido

Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]|abfs[s]|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.

validate
bool
Requerido

Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

include_path
bool
Requerido

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

set_column_types
dict[str, DataType]
Requerido

Diccionario para establecer el tipo de datos de columna, donde la clave es el nombre de columna y el valor es DataType.

partition_format
str
Requerido

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

Devoluciones

Devuelve un objeto TabularDataset.

Tipo de valor devuelto

Comentarios

from_parquet_files crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de archivos Parquet en la representación tabular.

Para que Azure Machine Learning pueda acceder a los datos, los archivos Parquet especificados por la ruta de acceso deben encontrarse en Datastore direcciones URL web públicas o detrás de blobs, ADLS Gen1 y ADLS Gen2. El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access

Los tipos de datos de columna se leen de los tipos de datos guardados en los archivos Parquet. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Crea un objeto TabularDataset para representar datos tabulares en bases de datos SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parámetros

query
Union[DataPath, (Datastore, str)]
Requerido

Consulta y almacén de datos de tipo SQL.

validate
bool
Requerido

Valor booleano para validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

set_column_types
dict[str, DataType]
Requerido

Diccionario para establecer el tipo de datos de columna, donde la clave es el nombre de columna y el valor es DataType.

query_timeout
Requerido

Establece el tiempo de espera (en segundos) hasta que se interrumpe el intento de ejecutar un comando y se genera un error. El valor predeterminado es 30 segundos.

Devoluciones

Devuelve un objeto TabularDataset.

Tipo de valor devuelto

Comentarios

from_sql_query crea un objeto de clase TabularDataset, que define las operaciones para cargar datos de bases de datos SQL en la representación tabular. Actualmente, solo se admite MSSQLDataSource.

Para que Azure Machine Learning pueda acceder a los datos, la base de datos SQL especificada por query debe estar ubicada en Datastore y el almacén de datos debe ser de tipo SQL.

Los tipos de datos de columna se leen de los tipos de datos del resultado de la consulta SQL. Si se proporciona set_column_types, se invalidará el tipo de datos de las columnas especificadas en el objeto TabularDataset devuelto.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Nota

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Creación de un conjunto de datos a partir de un dataframe de dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parámetros

dataframe
<xref:dask.dataframe.core.DataFrame>
Requerido

Obligatorio, un dataframe de dask que se va a cargar.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Requerido

Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos del parquet de la trama de datos. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.

name
str
Requerido

Obligatorio, el nombre del conjunto de datos registrado.

description
str
Requerido

Opcional. Descripción de texto del conjunto de datos. El valor predeterminado es None.

tags
dict[str, str]
Requerido

Opcional. Diccionario de etiquetas clave-valor para proporcionar al conjunto de datos. El valor predeterminado es None.

show_progress
bool
Requerido

Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.

Devoluciones

Conjunto de datos registrado.

Tipo de valor devuelto

register_pandas_dataframe

Creación de un conjunto de datos a partir de un dataframe de Pandas

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parámetros

dataframe
DataFrame
Requerido

Obligatorio, en el dataframe de memoria que se va a cargar.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Requerido

Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos de Parquet del dataframe. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.

name
str
Requerido

Obligatorio, el nombre del conjunto de datos registrado.

description
int
Requerido

Opcional. Descripción de texto del conjunto de datos. El valor predeterminado es None.

tags
dict[str, str]
Requerido

Opcional. Diccionario de etiquetas clave-valor para proporcionar al conjunto de datos. El valor predeterminado es None.

show_progress
bool
Requerido

Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.

row_group_size
Requerido

Opcional. Tamaño máximo del grupo de filas que se va a usar al escribir un archivo parquet. El valor predeterminado es None.

make_target_path_unique
Requerido

Opcional, indica si se debe crear una subcarpeta única en el destino. El valor predeterminado es True.

Devoluciones

El conjunto de datos registrado.

Tipo de valor devuelto

register_spark_dataframe

Nota

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Creación de un conjunto de datos a partir de un dataframe de spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parámetros

dataframe
DataFrame
Requerido

Obligatorio, en el dataframe de memoria que se va a cargar.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Requerido

Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos de Parquet del dataframe. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.

name
str
Requerido

Obligatorio, el nombre del conjunto de datos registrado.

description
str
Requerido

Opcional. Descripción de texto del conjunto de datos. El valor predeterminado es None.

tags
dict[str, str]
Requerido

Opcional. Diccionario de etiquetas clave-valor para proporcionar al conjunto de datos. El valor predeterminado es None.

show_progress
bool
Requerido

Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.

Devoluciones

Conjunto de datos registrado.

Tipo de valor devuelto