Dataset Clase
Representa un recurso para explorar, transformar y administrar datos en Azure Machine Learning.
Un conjunto de datos es una referencia a los datos de un objeto Datastore o que se encuentran detrás de direcciones URL web públicas.
Para ver los métodos en desuso de esta clase, consulte las API mejoradas de la clase AbstractDataset.
Se admiten los siguientes tipos de conjuntos de datos:
TabularDataset representa los datos en formato tabular que se crean mediante el análisis del archivo o la lista de archivos proporcionados.
FileDataset hace referencia a uno o varios archivos de almacenes de archivos o direcciones URL públicas.
Para empezar a trabajar con conjuntos de datos, consulte el artículo Adición y registro de conjuntos de datos, o vea los cuadernos https://aka.ms/tabulardataset-samplenotebook y https://aka.ms/filedataset-samplenotebook.
- Herencia
-
builtins.objectDataset
Constructor
Dataset(definition, workspace=None, name=None, id=None)
Comentarios
La clase Dataset expone dos atributos de clase convenientes (File
y Tabular
) que puede usar para crear un conjunto de datos sin trabajar con instancias de Factory Method. Por ejemplo, para crear un conjunto de datos con estos atributos:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
También puede crear un objeto TabularDataset o FileDataset llamando directamente a las instancias de Factory Method correspondientes de la clase definida en TabularDatasetFactory y FileDatasetFactory.
En el ejemplo siguiente se muestra cómo crear un elemento TabularDataset que apunta a una sola ruta de acceso de un almacén de datos.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.
Variables
- azureml.core.Dataset.File
Atributo de clase que proporciona acceso a los métodos FileDatasetFactory para crear objetos FileDataset. Uso: Dataset.File.from_files().
- azureml.core.Dataset.Tabular
Atributo de clase que proporciona acceso a los métodos TabularDatasetFactory para crear objetos TabularDataset. Uso: Dataset.Tabular.from_delimited_files().
Métodos
archive |
Archiva un conjunto de datos activo o en desuso. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
auto_read_files |
Analiza los archivos en la ruta de acceso especificada y devuelve un nuevo conjunto de datos. Nota Este método está en desuso y ya no se admite. Se recomienda usar los métodos Dataset.Tabular.from_* para leer archivos. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
compare_profiles |
Compara el perfil del conjunto de datos actual con otro perfil de conjunto de datos. De esta forma, se muestran las diferencias en las estadísticas de resumen entre dos conjuntos de datos. El parámetro "rhs_dataset" significa "lado derecho" y es simplemente el segundo conjunto de datos. El primer conjunto de datos (el objeto de conjunto de datos actual) se considera el "lado izquierdo". Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
create_snapshot |
Crea una instantánea del conjunto de datos registrado. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
delete_snapshot |
Elimina la instantánea del conjunto de datos por nombre. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
deprecate |
Otro conjunto de datos deja en desuso un conjunto de datos activo en un área de trabajo. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
diff |
Diferencia el conjunto de datos actual con rhs_dataset. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
from_binary_files |
Crea un conjunto de datos en memoria no registrado a partir de archivos binarios. Nota Este método está en desuso y ya no se admite. Se recomienda usar Dataset.File.from_files en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
from_delimited_files |
Crea un conjunto de datos en memoria no registrado a partir de archivos delimitados. Nota Este método está en desuso y ya no se admite. Se recomienda usar Dataset.Tabular.from_delimited_files en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
|
from_excel_files |
Crea un conjunto de datos en memoria sin registrar a partir de archivos de Excel. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
from_json_files |
Crea un conjunto de datos en memoria sin registrar a partir de archivos JSON. Nota Este método está en desuso y ya no se admite. Se recomienda usar Dataset.Tabular.from_json_lines_files en su lugar para leer archivos de líneas JSON. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Crea un conjunto de datos en memoria sin registrar a partir de una trama de datos de Pandas. Nota Este método está en desuso y ya no se admite. Se recomienda usar Dataset.Tabular.register_pandas_dataframe en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
from_parquet_files |
Crea un conjunto de datos en memoria sin registrar a partir de archivos Parquet. Nota Este método está en desuso y ya no se admite. Se recomienda usar Dataset.Tabular.from_parquet_files en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
from_sql_query |
Crea un conjunto de datos en memoria sin registrar a partir de una consulta SQL. Nota Este método está en desuso y ya no se admite. Se recomienda usar Dataset.Tabular.from_sql_query en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
generate_profile |
Genera un nuevo perfil para el conjunto de datos. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
get |
Obtiene un conjunto de datos que ya existe en el área de trabajo especificando su nombre o identificador. Nota Este método está en desuso y ya no se admite. Se recomienda usar get_by_name y get_by_id su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
get_all |
Obtiene todos los conjuntos de datos registrados del área de trabajo. |
get_all_snapshots |
Obtiene todas las instantáneas del conjunto de datos. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
get_by_id |
Obtiene un conjunto de datos que se guarda en el área de trabajo. |
get_by_name |
Obtiene un conjunto de datos registrado del área de trabajo por su nombre de registro. |
get_definition |
Obtiene una definición específica del conjunto de datos. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
get_definitions |
Obtiene todas las definiciones del conjunto de datos. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
get_profile |
Obtiene estadísticas de resumen del conjunto de datos calculado anteriormente. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
get_snapshot |
Obtiene la instantánea del conjunto de datos por nombre. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
head |
Extrae el número de registros especificado de este conjunto de datos y los devuelve como DataFrame. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
list |
Enumera todos los conjuntos de datos del área de trabajo, incluidos los que tienen una propiedad Nota Este método está en desuso y ya no se admite. Se recomienda usar get_all en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
reactivate |
Reactiva un conjunto de datos archivado o en desuso. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
register |
Registra el conjunto de datos en el área de trabajo y permite que esté disponible para otros usuarios del área de trabajo. Nota Este método está en desuso y ya no se admite. Se recomienda usar register en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
sample |
Genera una nueva muestra a partir del conjunto de datos de origen mediante la estrategia y los parámetros de muestreo proporcionados. Nota Este método está en desuso y ya no se admite. Cree un objeto TabularDataset mediante la llamada a los métodos estáticos de Dataset.Tabular y use ahí el método take_sample. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Crea una trama de datos de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos. Nota Este método está en desuso y ya no se admite. Cree un objeto TabularDataset mediante la llamada a los métodos estáticos de Dataset.Tabular y use ahí el método to_pandas_dataframe. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Crea un objeto DataFrame de Spark que puede ejecutar la canalización de transformación definida por esta definición de conjunto de datos. Nota Este método está en desuso y ya no se admite. Cree un objeto TabularDataset mediante la llamada a los métodos estáticos de Dataset.Tabular y use ahí el método to_spark_dataframe. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
update |
Actualiza los atributos mutable del conjunto de datos en el área de trabajo y devuelve el conjunto de datos actualizado del área de trabajo. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
update_definition |
Actualiza la definición del conjunto de datos. Nota Este método está en desuso y ya no se admite. Para obtener más información, vea https://aka.ms/dataset-deprecation. |
archive
Archiva un conjunto de datos activo o en desuso.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
archive()
Devoluciones
Ninguno.
Tipo de valor devuelto
Comentarios
Después del archivado, cualquier intento de consumir el conjunto de datos producirá un error. Si se archiva por accidente, al reactivarlo se activará.
auto_read_files
Analiza los archivos en la ruta de acceso especificada y devuelve un nuevo conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar los métodos Dataset.Tabular.from_* para leer archivos. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parámetros
- path
- DataReference o str
Una ruta de acceso a datos en un almacén de datos registrado, una ruta de acceso local o una dirección URL HTTP (CSV/TSV).
- include_path
- bool
Si se incluirá una columna que contenga la ruta de acceso del archivo del que se leyeron los datos. Resulta útil cuando se leen varios archivos y se quiere saber de qué archivo se originó un registro determinado. También resulta útil si hay información en la ruta de acceso o el nombre del archivo que quiere en una columna.
- partition_format
- str
Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato "{x}" y columnas datetime a partir del formato "{x:yyyy/MM/dd/HH/mm/ss}", donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo ".. /Accounts/2019/01/01/data.csv" donde los datos se particionan por nombre de departamento y hora, se puede definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" para crear columnas "Department" de tipo cadena y "PartitionDate" de tipo datetime.
Devoluciones
Objeto de conjunto de datos.
Tipo de valor devuelto
Comentarios
Use este método cuando se detecten automáticamente formatos de archivo y delimitadores.
Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna.
El conjunto de datos devuelto no se registra con el área de trabajo.
compare_profiles
Compara el perfil del conjunto de datos actual con otro perfil de conjunto de datos.
De esta forma, se muestran las diferencias en las estadísticas de resumen entre dos conjuntos de datos. El parámetro "rhs_dataset" significa "lado derecho" y es simplemente el segundo conjunto de datos. El primer conjunto de datos (el objeto de conjunto de datos actual) se considera el "lado izquierdo".
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)
Parámetros
- rhs_dataset
- Dataset
Un segundo conjunto de datos, también llamado "lado derecho" para comparar.
- histogram_compare_method
- HistogramCompareMethod
Enumeración que describe el método de comparación, por ejemplo, Wasserstein o Energy.
Devoluciones
Diferencia entre los dos perfiles de conjunto de datos.
Tipo de valor devuelto
Comentarios
Solo se aplica a conjuntos de datos registrados. Genera una excepción si el perfil del conjunto de datos actual no existe. Para conjuntos de datos no registrados, use el método profile.compare.
create_snapshot
Crea una instantánea del conjunto de datos registrado.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parámetros
- snapshot_name
- str
Nombre de la instantánea. Los nombres de instantánea deben ser únicos dentro de un conjunto de datos.
- compute_target
- Union[ComputeTarget, str]
Destino de proceso opcional para crear el perfil de instantánea. Si se omite, se usa el proceso local.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Almacén de datos de destino para guardar la instantánea. Si se omite, la instantánea se creará en el almacenamiento predeterminado del área de trabajo.
Devoluciones
Objeto de instantánea del conjunto de datos.
Tipo de valor devuelto
Comentarios
Las instantáneas capturan estadísticas de resumen de un momento dado de los datos subyacentes y una copia opcional de los propios datos. Para más información sobre cómo crear instantáneas, vaya a https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Elimina la instantánea del conjunto de datos por nombre.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parámetros
Devoluciones
Ninguno.
Tipo de valor devuelto
Comentarios
Úselo para liberar el almacenamiento consumido por los datos guardados en instantáneas que ya no necesita.
deprecate
Otro conjunto de datos deja en desuso un conjunto de datos activo en un área de trabajo.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parámetros
- deprecate_by_dataset_id
- str
Identificador del conjunto de datos que es el reemplazo previsto de este conjunto de datos.
Devoluciones
Ninguno.
Tipo de valor devuelto
Comentarios
Los conjuntos de datos en desuso registrarán advertencias cuando se consuman. El desuso de un conjunto de datos deja obsoletas todas sus definiciones.
Los conjuntos de datos en desuso todavía se pueden consumir. Para impedir el consumo de un conjunto de datos, archívelo.
Si se ha dejado en desuso por accidente, al reactivarlo se activará.
diff
Diferencia el conjunto de datos actual con rhs_dataset.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parámetros
- rhs_dataset
- Dataset
Otro conjunto de datos, también llamado lado derecho, para la comparación.
- compute_target
- Union[ComputeTarget, str]
Destino de proceso para ejecutar la diferencia. Si se omite, se usa el proceso local.
Devoluciones
Objeto de ejecución de acción de conjunto de datos.
Tipo de valor devuelto
from_binary_files
Crea un conjunto de datos en memoria no registrado a partir de archivos binarios.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar Dataset.File.from_files en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parámetros
- path
- DataReference o str
Una ruta de acceso a datos en un almacén de datos registrado o una ruta de acceso local.
Devoluciones
Objeto de conjunto de datos.
Tipo de valor devuelto
Comentarios
Use este método para leer archivos como secuencias de datos binarios. Devuelve un objeto de secuencia de archivos por cada archivo leído. Use este método al leer imágenes, vídeos, audio u otros datos binarios.
get_profile y create_snapshot no funcionarán según lo previsto en conjuntos de datos creados por este método.
El conjunto de datos devuelto no se registra con el área de trabajo.
from_delimited_files
Crea un conjunto de datos en memoria no registrado a partir de archivos delimitados.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar Dataset.Tabular.from_delimited_files en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)
Parámetros
- path
- DataReference o str
Una ruta de acceso a datos en un almacén de datos registrado, una ruta de acceso local o una dirección URL HTTP.
- header
- PromoteHeadersBehavior
Controla cómo se promueven los encabezados de columna al leer archivos.
- quoting
- bool
Especifica cómo tratar los caracteres de nueva línea entre comillas. El valor predeterminado (false) es interpretar los caracteres de nueva línea como nuevas filas iniciales, independientemente de si los caracteres de nueva línea están entre comillas o no. Si se establece en true, los caracteres de nueva línea dentro de las comillas no darán lugar a nuevas filas y la velocidad de lectura de archivos se ralentizará.
- comment
- str
Carácter utilizado para indicar líneas de comentario en los archivos que se leen. Se omitirán las líneas que comienzan por esta cadena.
- include_path
- bool
Si se incluirá una columna que contenga la ruta de acceso del archivo del que se leyeron los datos. Resulta útil cuando se leen varios archivos y se quiere saber de qué archivo se originó un registro determinado, o bien para mantener información útil en la ruta de acceso del archivo.
- archive_options
- <xref:azureml.dataprep.ArchiveOptions>
Opciones para el archivado de archivos, incluido el tipo de archivo y el patrón global de entrada. En este momento solo se admite ZIP como tipo de archivo. Por ejemplo, al especificar
archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')
se leen todos los archivos con el nombre que termina con "10-20.csv" en ZIP.
- partition_format
- str
Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato "{x}" y columnas datetime a partir del formato "{x:yyyy/MM/dd/HH/mm/ss}", donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo ".. /Accounts/2019/01/01/data.csv" donde los datos se particionan por nombre de departamento y hora, se puede definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" para crear columnas "Department" de tipo cadena y "PartitionDate" de tipo datetime.
Devoluciones
Objeto de conjunto de datos.
Tipo de valor devuelto
Comentarios
Use este método para leer archivos de texto delimitados cuando quiera controlar las opciones usadas.
Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna.
El conjunto de datos devuelto no se registra con el área de trabajo.
from_excel_files
Crea un conjunto de datos en memoria sin registrar a partir de archivos de Excel.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parámetros
- path
- DataReference o str
Una ruta de acceso a datos en un almacén de datos registrado o una ruta de acceso local.
- sheet_name
- str
Nombre de la hoja de Excel que se cargará. De forma predeterminada, se lee la primera hoja de cada archivo Excel.
- include_path
- bool
Si se incluirá una columna que contenga la ruta de acceso del archivo del que se leyeron los datos. Resulta útil cuando se leen varios archivos y se quiere saber de qué archivo se originó un registro determinado, o bien para mantener información útil en la ruta de acceso del archivo.
- partition_format
- str
Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato "{x}" y columnas datetime a partir del formato "{x:yyyy/MM/dd/HH/mm/ss}", donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo "../Accounts/2019/01/01/data.xlsx" donde los datos se particionan por nombre de departamento y hora, se puede definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx" para crear columnas "Department" de tipo cadena y "PartitionDate" de tipo datetime.
Devoluciones
Objeto de conjunto de datos.
Tipo de valor devuelto
Comentarios
Use este método para leer archivos Excel en formato .xlsx. Los datos se pueden leer de una hoja de cada archivo de Excel. Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna. El conjunto de datos devuelto no se registra con el área de trabajo.
from_json_files
Crea un conjunto de datos en memoria sin registrar a partir de archivos JSON.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar Dataset.Tabular.from_json_lines_files en su lugar para leer archivos de líneas JSON. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parámetros
- path
- DataReference o str
Ruta de acceso a los archivos o carpetas que quiere cargar y analizar. Puede ser una ruta de acceso local o una dirección URL de blob de Azure. Se admiten comodines. Por ejemplo, puede usar path = "./data*" para leer todos los archivos cuyo nombre empieza por "data".
- flatten_nested_arrays
- bool
Propiedad que controla el tratamiento de las matrices anidadas del programa. Si decide aplanar matrices JSON anidadas, podría generarse un número mucho mayor de filas.
- include_path
- bool
Si se incluirá una columna que contenga la ruta de acceso desde la que se leyeron los datos. Resulta útil cuando se leen varios archivos y se quiere saber de qué archivo se originó un registro determinado, o bien para mantener información útil en la ruta de acceso del archivo.
- partition_format
- str
Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato "{x}" y columnas datetime a partir del formato "{x:yyyy/MM/dd/HH/mm/ss}", donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo "../Accounts/2019/01/01/data.json" donde los datos se particionan por nombre de departamento y hora, se puede definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.json" para crear columnas "Department" de tipo cadena y "PartitionDate" de tipo datetime.
Devoluciones
Objeto de conjunto de datos local.
Tipo de valor devuelto
from_pandas_dataframe
Crea un conjunto de datos en memoria sin registrar a partir de una trama de datos de Pandas.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar Dataset.Tabular.register_pandas_dataframe en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parámetros
- path
- Union[DataReference, str]
Ruta de acceso a datos del almacén de datos registrado o ruta de acceso de carpeta local.
- in_memory
- bool
Si se leerá el objeto DataFrame de la memoria en lugar de conservarse en el disco.
Devoluciones
Objeto de conjunto de datos.
Tipo de valor devuelto
Comentarios
Use este método para convertir una trama de datos de Pandas en un objeto de conjunto de datos. Un conjunto de datos creado por este método no se puede registrar, ya que los datos proceden de la memoria.
Si in_memory
es false, el objeto DataFrame de Pandas se convierte localmente en un archivo CSV. Si pat
es de tipo DataReference, la trama de Pandas se cargará en el almacén de datos y el conjunto de datos se basará en DataReference. Si "path" es una carpeta local, el conjunto de datos se creará a partir del archivo local que no se puede eliminar.
Genera una excepción si el objeto DataReference actual no es una ruta de acceso de carpeta.
from_parquet_files
Crea un conjunto de datos en memoria sin registrar a partir de archivos Parquet.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar Dataset.Tabular.from_parquet_files en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parámetros
- path
- DataReference o str
Una ruta de acceso a datos en un almacén de datos registrado o una ruta de acceso local.
- include_path
- bool
Si se incluirá una columna que contenga la ruta de acceso del archivo del que se leyeron los datos. Resulta útil cuando se leen varios archivos y se quiere saber de qué archivo se originó un registro determinado, o bien para mantener información útil en la ruta de acceso del archivo.
- partition_format
- str
Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato "{x}" y columnas datetime a partir del formato "{x:yyyy/MM/dd/HH/mm/ss}", donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo "../Accounts/2019/01/01/data.parquet" donde los datos se particionan por nombre de departamento y hora, se puede definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" para crear columnas "Department" de tipo cadena y "PartitionDate" de tipo datetime.
Devoluciones
Objeto de conjunto de datos.
Tipo de valor devuelto
Comentarios
Use este método para leer archivos Parquet.
Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna.
El conjunto de datos devuelto no se registra con el área de trabajo.
from_sql_query
Crea un conjunto de datos en memoria sin registrar a partir de una consulta SQL.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar Dataset.Tabular.from_sql_query en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parámetros
Devoluciones
Objeto de conjunto de datos local.
Tipo de valor devuelto
generate_profile
Genera un nuevo perfil para el conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parámetros
- compute_target
- Union[ComputeTarget, str]
Destino de proceso opcional para crear el perfil de instantánea. Si se omite, se usa el proceso local.
- workspace
- Workspace
Área de trabajo, necesaria para conjuntos de datos transitorios (sin registrar).
Argumentos de perfil. Los argumentos válidos son:
"include_stype_counts" de tipo booleano. Compruebe si los valores tienen un aspecto similar a algunos tipos semánticos conocidos, como la dirección de correo electrónico, la dirección IP (V4/V6), el número de teléfono de EE. UU., el código postal de EE. UU., la latitud y longitud. Al habilitarlo, el rendimiento resulta afectado.
"number_of_histogram_bins" de tipo entero. Representa el número de rangos de histograma que se usarán para los datos numéricos. El valor predeterminado es 10.
Devoluciones
Objeto de ejecución de acción de conjunto de datos.
Tipo de valor devuelto
Comentarios
La llamada sincrónica se bloqueará hasta que se complete. Llame a get_result para obtener el resultado de la acción.
get
Obtiene un conjunto de datos que ya existe en el área de trabajo especificando su nombre o identificador.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar get_by_name y get_by_id su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se creó el conjunto de datos.
Devoluciones
Conjunto de datos con el nombre o el identificador especificados.
Tipo de valor devuelto
Comentarios
Puede proporcionar name
o id
. Se produce una excepción si:
Se especifica
name
yid
, pero no coinciden.El conjunto de datos con el valor de
name
noid
especificado no se encuentra en el área de trabajo.
get_all
Obtiene todos los conjuntos de datos registrados del área de trabajo.
get_all()
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se registraron los conjuntos de datos.
Devoluciones
Diccionario de objetos TabularDataset y FileDataset con clave por su nombre de registro.
Tipo de valor devuelto
get_all_snapshots
Obtiene todas las instantáneas del conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
get_all_snapshots()
Devoluciones
Lista de instantáneas del conjuntos de datos.
Tipo de valor devuelto
get_by_id
Obtiene un conjunto de datos que se guarda en el área de trabajo.
get_by_id(id)
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se guarda el conjunto de datos.
Devoluciones
Objeto de conjunto de datos. Si se registra el conjunto de datos, también se devolverán el nombre y la versión del registro.
Tipo de valor devuelto
get_by_name
Obtiene un conjunto de datos registrado del área de trabajo por su nombre de registro.
get_by_name(name, version='latest')
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se registró el conjunto de datos.
Devoluciones
Objeto de conjunto de datos registrado.
Tipo de valor devuelto
get_definition
Obtiene una definición específica del conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parámetros
Devoluciones
Definición de conjunto de datos.
Tipo de valor devuelto
Comentarios
Si se proporciona version_id
, Azure Machine Learning intenta obtener la definición correspondiente a esa versión. Si esa versión no existe, se produce una excepción.
Si se omite version_id
, se recupera la versión más reciente.
get_definitions
Obtiene todas las definiciones del conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
get_definitions()
Devoluciones
Diccionario de definiciones de conjuntos de datos.
Tipo de valor devuelto
Comentarios
Un conjunto de datos registrado en un área de trabajo de AzureML puede tener varias definiciones, cada una de las cuales se crea con la llamada a update_definition. Cada definición tiene un identificador único. La definición actual es la más reciente creada.
En el caso de los conjuntos de datos no registrados, solo existe una definición.
get_profile
Obtiene estadísticas de resumen del conjunto de datos calculado anteriormente.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parámetros
- workspace
- Workspace
Área de trabajo, necesaria para conjuntos de datos transitorios (sin registrar).
- compute_target
- Union[ComputeTarget, str]
Destino de proceso para ejecutar la acción del perfil.
Devoluciones
DataProfile del conjunto de datos.
Tipo de valor devuelto
Comentarios
En el caso de un conjunto de datos registrado con un área de trabajo de Azure Machine Learning, este método recupera un perfil existente que se creó anteriormente mediante una llamada a get_profile
si todavía es válido. Los perfiles se invalidan cuando se detectan datos modificados en el conjunto de datos o cuando los argumentos para get_profile
son diferentes de los usados cuando se generó el perfil. Si el perfil no está presente o se ha invalidado, generate_if_not_exist
determinará si se genera un nuevo perfil.
Si el conjunto de datos no está registrado con un área de trabajo de Azure Machine Learning, este método siempre ejecuta generate_profile y devuelve el resultado.
get_snapshot
Obtiene la instantánea del conjunto de datos por nombre.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parámetros
Devoluciones
Objeto de instantánea del conjunto de datos.
Tipo de valor devuelto
head
Extrae el número de registros especificado de este conjunto de datos y los devuelve como DataFrame.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
head(count)
Parámetros
Devoluciones
Objeto DataFrame de Pandas.
Tipo de valor devuelto
list
Enumera todos los conjuntos de datos del área de trabajo, incluidos los que tienen una propiedad is_visible
igual a false.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar get_all en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
static list(workspace)
Parámetros
- workspace
- Workspace
Área de trabajo para la que quiere recuperar la lista de conjuntos de datos.
Devoluciones
Lista de objetos de conjunto de datos.
Tipo de valor devuelto
reactivate
Reactiva un conjunto de datos archivado o en desuso.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
reactivate()
Devoluciones
Ninguno.
Tipo de valor devuelto
register
Registra el conjunto de datos en el área de trabajo y permite que esté disponible para otros usuarios del área de trabajo.
Nota
Este método está en desuso y ya no se admite.
Se recomienda usar register en su lugar. Para obtener más información, vea https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML en la que se va a registrar el conjunto de datos.
- visible
- bool
Indica si el conjunto de datos está visible en la interfaz de usuario. Si es false, el conjunto de datos está oculto en la interfaz de usuario y está disponible a través del SDK.
- exist_ok
- bool
Si es true, el método devuelve el conjunto de datos si ya existe en el área de trabajo dada; de lo contrario, se produce un error.
- update_if_exist
- bool
Si exist_ok
y update_if_exist
son true, este método actualizará la definición y devolverá el conjunto de datos actualizado.
Devoluciones
Objeto Dataset registrado en el área de trabajo.
Tipo de valor devuelto
sample
Genera una nueva muestra a partir del conjunto de datos de origen mediante la estrategia y los parámetros de muestreo proporcionados.
Nota
Este método está en desuso y ya no se admite.
Cree un objeto TabularDataset mediante la llamada a los métodos estáticos de Dataset.Tabular y use ahí el método take_sample. Para obtener más información, vea https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parámetros
- sample_strategy
- str
Estrategia de ejemplo que se usará. Los valores aceptados son "top_n", "simple_random" o "stratified".
Diccionario con claves del "argumento opcional" en la lista mostrada anteriormente y valores de la columna de tipo "Type". Solo se pueden usar argumentos del método de muestreo correspondiente. Por ejemplo, para un tipo de muestra "simple_random", solo puede especificar un diccionario con claves de "probability" y "seed".
Devoluciones
Objeto de conjunto de datos como muestra del conjunto de datos original.
Tipo de valor devuelto
Comentarios
Las muestras se generan mediante la ejecución de la canalización de transformación definida por este conjunto de datos y la posterior aplicación de la estrategia y los parámetros de muestreo a los datos de salida. Cada método de muestreo admite los siguientes argumentos opcionales:
top_n
Argumentos opcionales
- n, type integer. Selecciona las N primeras filas como muestra.
simple_random
Argumentos opcionales
probability, type float. Muestreo aleatorio simple donde cada fila tiene la misma probabilidad de ser seleccionada. La probabilidad debe ser un número entre 0 y 1.
seed, type float. Se usa con el generador de números aleatorios. Se usa para la repetibilidad.
stratified
Argumentos opcionales
columns, type list[str]. Lista de columnas de estrato en los datos.
seed, type float. Se usa con el generador de números aleatorios. Se usa para la repetibilidad.
fractions, type dict[tuple, float]. Tuple: los valores de columna que definen un estrato deben estar en el mismo orden que los nombres de columna. Float: peso asociado a un estrato durante el muestreo.
Los fragmentos de código siguientes son patrones de diseño de ejemplo para distintos métodos de muestreo.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Crea una trama de datos de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Cree un objeto TabularDataset mediante la llamada a los métodos estáticos de Dataset.Tabular y use ahí el método to_pandas_dataframe. Para obtener más información, vea https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Devoluciones
Objeto DataFrame de Pandas.
Tipo de valor devuelto
Comentarios
Devuelve un objeto DataFrame de Pandas totalmente materializado en memoria.
to_spark_dataframe
Crea un objeto DataFrame de Spark que puede ejecutar la canalización de transformación definida por esta definición de conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Cree un objeto TabularDataset mediante la llamada a los métodos estáticos de Dataset.Tabular y use ahí el método to_spark_dataframe. Para obtener más información, vea https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Devoluciones
Objeto DataFrame de Spark.
Tipo de valor devuelto
Comentarios
La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida.
update
Actualiza los atributos mutable del conjunto de datos en el área de trabajo y devuelve el conjunto de datos actualizado del área de trabajo.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parámetros
Devoluciones
Objeto Dataset actualizado del área de trabajo.
Tipo de valor devuelto
update_definition
Actualiza la definición del conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parámetros
Devoluciones
Objeto Dataset actualizado del área de trabajo.
Tipo de valor devuelto
Comentarios
Para consumir el conjunto de datos actualizado, use el objeto devuelto por este método.
Atributos
definition
Devuelve la definición del conjunto de datos actual.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
Devoluciones
Definición de conjunto de datos.
Tipo de valor devuelto
Comentarios
Una definición de conjunto de datos es una serie de pasos que especifican cómo leer y transformar datos.
Un conjunto de datos registrado en un área de trabajo de AzureML puede tener varias definiciones, cada una de las cuales se crea con la llamada a update_definition. Cada definición tiene un identificador único. Tener varias definiciones le permite realizar cambios en los conjuntos de datos existentes sin dividir los modelos y canalizaciones que dependen de la definición anterior.
En el caso de los conjuntos de datos no registrados, solo existe una definición.
definition_version
Devuelve la versión de la definición actual del conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
Devoluciones
La versión de la definición de conjunto de datos.
Tipo de valor devuelto
Comentarios
Una definición de conjunto de datos es una serie de pasos que especifican cómo leer y transformar datos.
Un conjunto de datos registrado en un área de trabajo de AzureML puede tener varias definiciones, cada una de las cuales se crea con la llamada a update_definition. Cada definición tiene un identificador único. La definición actual es la creada más recientemente, y devuelve el identificador de esta.
En el caso de los conjuntos de datos no registrados, solo existe una definición.
description
Devuelve la descripción del conjunto de datos.
Devoluciones
Descripción del conjunto de datos.
Tipo de valor devuelto
Comentarios
La especificación de una descripción de los datos en el conjunto de datos permite a los usuarios del área de trabajo comprender lo que representan los datos y cómo pueden usarlos.
id
Si el conjunto de datos se registró en un área de trabajo, devuelve el identificador del conjunto de datos. De lo contrario, devuelve "None".
Devoluciones
El identificador del conjunto de datos.
Tipo de valor devuelto
is_visible
Controla la visibilidad de un conjunto de datos registrado en la interfaz de usuario del área de trabajo de Azure ML.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
Devoluciones
Visibilidad del conjunto de datos.
Tipo de valor devuelto
Comentarios
Valores devueltos:
True: el conjunto de datos está visible en la interfaz de usuario del área de trabajo. Predeterminada.
False: el conjunto de datos está oculto en la interfaz de usuario del área de trabajo.
No tiene ningún efecto sobre los conjuntos de datos no registrados.
name
Devuelve el nombre del conjunto de datos.
Devoluciones
Nombre del conjunto de datos.
Tipo de valor devuelto
state
Devuelve el estado del conjunto de datos.
Nota
Este método está en desuso y ya no se admite.
Para obtener más información, vea https://aka.ms/dataset-deprecation.
Devoluciones
Estado del conjunto de datos.
Tipo de valor devuelto
Comentarios
El significado y el efecto de los estados son los siguientes:
activa. Las definiciones activas son exactamente lo que parecen, todas las acciones se pueden realizar en definiciones activas.
En desuso. Se puede usar la definición en desuso, pero dará lugar a la entrada de una advertencia en los registros cada vez que se accede a los datos subyacentes.
Archivado. No se puede usar una definición archivada para realizar una acción. Para realizar acciones en una definición archivada, se debe reactivar.
tags
Devuelve las etiquetas asociadas al conjunto de datos.
Devoluciones
Etiquetas del conjunto de datos.
Tipo de valor devuelto
workspace
Si el conjunto de datos se registró en una área de trabajo, la devuelve. De lo contrario, devuelve "None".
Devoluciones
Área de trabajo.
Tipo de valor devuelto
Comentarios
Enviar y ver comentarios de