Compartir a través de


Datos en Azure Machine Learning v1

SE APLICA A: Extensión de ML de la CLI de Azure v1

SE APLICA A: Azure ML del SDK de Python v1

Azure Machine Learning facilita la conexión con los datos en la nube. Proporciona una capa de abstracción en el servicio de almacenamiento subyacente, por lo que puede acceder de forma segura a los datos y trabajar con ellos sin tener que escribir código específico para su tipo de almacenamiento. Azure Machine Learning también ofrece estas funcionalidades de datos:

  • Interoperabilidad con DataFrames de Pandas y Spark
  • Control de versiones y seguimiento del linaje de datos
  • Etiquetado de datos
  • Supervisión del desfase de datos

Flujo de trabajo de datos

Para usar los datos de la solución de almacenamiento basada en la nube, se recomienda este flujo de trabajo de entrega de datos. En este flujo de trabajo se supone que tiene una cuenta de almacenamiento de Azure y datos en un servicio de almacenamiento basado en la nube de Azure.

  1. Cree un almacén de datos de Azure Machine Learning para almacenar la información de conexión en el almacenamiento de Azure.

  2. En ese almacén de datos, cree un conjunto de datos de Azure Machine Learning para que apunte a un archivo o archivos específicos del almacenamiento subyacente.

  3. Para usar ese conjunto de datos en el experimento de aprendizaje automático; puede:

    • Montar el conjunto de datos en el destino de proceso del experimento, para el entrenamiento del modelo.

      OR

    • Consumir el conjunto de datos directamente en soluciones de Azure Machine Learning; por ejemplo, las ejecuciones de experimentos de aprendizaje automático automatizado (ML automatizado), las canalizaciones de aprendizaje automático o el diseñador de Azure Machine Learning.

  4. Crear monitores de conjuntos de datos para el conjunto de datos de salida del modelo con el fin de detectar desfases de datos.

  5. Si se detecta un desfase de datos, actualice el conjunto de datos de entrada y vuelva a entrenar el modelo en consecuencia.

En esta captura de pantalla se muestra el flujo de trabajo recomendado:

Captura de pantalla en la que se muestra el servicio Azure Storage, que fluye a un almacén de datos y, a continuación, a un conjunto de datos.

Conexión al almacenamiento con almacenes de datos

Los almacenes de datos de Azure Machine Learning hospedan la información de conexión del almacenamiento de datos en Azure, por lo que no tendrá que colocarla en los scripts. Para obtener más información sobre cómo conectarse a una cuenta de almacenamiento y acceso a datos en el servicio de almacenamiento subyacente, visite Registro y creación de un almacén de datos.

Estos servicios de almacenamiento admitidos basados en la nube de Azure pueden registrarse como almacenes de datos:

  • Azure Blob Container
  • Recurso compartido de archivos de Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database for PostgreSQL
  • Sistema de archivos de Databricks
  • Azure Database for MySQL

Sugerencia

Puede crear almacenes de datos con autenticación basada en credenciales para acceder a los servicios de almacenamiento; por ejemplo, un token de entidad de servicio o de firma de acceso compartido (SAS). Los usuarios con acceso de lectura al área de trabajo pueden acceder a las credenciales.

Si esto supone un problema, visite crear un almacén de datos que use el acceso a datos basado en identidad para obtener más información sobre las conexiones a servicios de almacenamiento.

Datos de referencia en el almacenamiento con conjuntos de datos

Los conjuntos de datos de Azure Machine Learning no son copias de los datos. Al crear el conjunto de datos en sí, se crea una referencia a los datos en su servicio de almacenamiento, junto con una copia de sus metadatos.

Dado que los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, usted:

  • No generar ningún costo de almacenamiento adicional.
  • No se arriesgará de forma no intencionada cambiando sus orígenes de datos originales.
  • Mejorará las velocidades de rendimiento del flujo de trabajo de ML.

Para interactuar con los datos del almacenamiento, cree un conjunto de datos para empaquetar los datos en un objeto consumible para las tareas de aprendizaje automático. Registre el conjunto de datos en el área de trabajo para compartirlo y reutilizarlo en distintos experimentos sin las complejidades de la ingesta de datos.

Puede crear conjuntos de datos a partir de archivos locales, direcciones URL públicas, instancias de Azure Open Datasets o servicios de almacenamiento de Azure mediante almacenes de datos.

Hay dos tipos de conjuntos de datos:

  • FileDataset hace referencia a uno o varios archivos de los almacenes de datos o direcciones URL públicas. Si los datos ya están limpios y listos para los experimentos de entrenamiento, puede descargar o montar archivos a los que hacen referencia los objetos FileDataset en el destino de proceso.

  • TabularDataset representa los datos en formato tabular mediante el análisis del archivo o de la lista de archivos proporcionados. Puede cargar un objeto TabularDataset en un dataframe de Pandas o Spark para manipularlo o limpiarlo mejor. Para obtener una lista completa de formatos de datos a partir de los cuales se pueden crear objetos TabularDataset, consulte la clase TabularDatasetFactory.

Estos recursos ofrecen más información sobre las funcionalidades del conjunto de datos:

Trabajo con los datos

Con los conjuntos de datos puede realizar tareas de aprendizaje automático gracias a la perfecta integración con las características de Azure Machine Learning.

Etiquetado de datos con proyectos de etiquetado de datos

Etiquetar grandes volúmenes de datos en proyectos de aprendizaje automático puede ser una tarea compleja. Los proyectos con un componente de visión artificial (como la clasificación de imágenes o la detección de objetos) suelen requerir miles de imágenes y sus etiquetas correspondientes.

Azure Machine Learning le proporciona una ubicación central para crear, administrar y supervisar proyectos de etiquetado. Los proyectos de etiquetado ayudan a coordinar los datos, las etiquetas y los miembros del equipo, de modo que pueda administrar de forma más eficaz las tareas de etiquetado. Actualmente, las tareas admitidas implican la clasificación de imágenes (de varias etiquetas y de varias clases) y la identificación de objetos mediante rectángulos de selección.

Cree un proyecto de etiquetado de imágenes o un proyecto de etiquetado de texto y genere un conjunto de datos que puede usar en experimentos de aprendizaje automático.

Supervisión del rendimiento del modelo con desfase de datos

En el contexto de aprendizaje automático, el desfase de datos es el cambio en los datos de entrada del modelo que conduce a la degradación del rendimiento del modelo. Es uno de los principales motivos por los que la precisión del modelo se degrada con el tiempo, por lo que la supervisión del desfase de datos ayuda a detectar problemas de rendimiento del modelo.

Consulte Creación de monitores de conjunto de datos para obtener información sobre cómo detectar y alertar sobre el desfase de datos en los nuevos datos de un conjunto de datos.

Pasos siguientes