Conexión a los datos con Azure Machine Learning Studio

En este artículo, aprenderá a acceder a los datos con Azure Machine Learning Studio. Conéctese a los datos de los servicios de almacenamiento en Azure con almacenes de datos de Azure Machine Learning y luego empaquete esos datos para las tareas de los flujos de trabajo de ML con conjuntos de datos de Azure Machine Learning.

En la tabla siguiente se definen y resumen las ventajas de los almacenes de datos y los conjuntos de datos.

Object Descripción Ventajas
Almacenes de datos Conéctese de forma segura al servicio de almacenamiento en Azure y almacene la información de conexión, como el identificador de suscripción y la autorización de token de su instancia de Key Vault asociada el área de trabajo. Dado que la información se almacena de forma segura:

  • No ponga en peligro las credenciales de autenticación o los orígenes de datos.
  • Ya no es necesario codificarlos de forma rígida en los scripts.
  • Conjuntos de datos Mediante la creación de un conjunto de datos, puede crear una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Con los conjuntos de datos puede:

  • Acceder a los datos durante el entrenamiento del modelo.
  • Compartir datos y colaborar con otros usuarios.
  • Usar las bibliotecas de código abierto, como Pandas, para la exploración de datos.
  • Dado que los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, usted:

  • Mantener una sola copia de los datos en el almacenamiento.
  • No generar ningún costo de almacenamiento adicional.
  • No se arriesgará de forma no intencionada cambiando sus orígenes de datos originales.
  • Mejorará las velocidades de rendimiento del flujo de trabajo de ML.
  • Para comprender dónde encajan los almacenes de datos y los conjuntos de datos en el flujo de trabajo global de acceso a datos de Azure Machine Learning, vea el artículo Acceso seguro a los datos.

    Para obtener una experiencia de Code First, consulte los artículos siguientes para usar el SDK de Python de Azure Machine Learning para:

    Requisitos previos

    • Suscripción a Azure. Si no tiene una suscripción de Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.

    • Acceso a Azure Machine Learning Studio.

    • Un área de trabajo de Azure Machine Learning. Creación de recursos para el área de trabajo.

      • Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure como almacenes de datos en el área de trabajo. Se denominan workspaceblobstore y workspacefilestore, respectivamente. Si el almacenamiento de blobs es suficiente para sus necesidades, workspaceblobstore se establece como almacén de datos predeterminado y ya está configurado para su uso. De lo contrario, necesita una cuenta de almacenamiento en Azure con un tipo de almacenamiento compatible.

    Creación de almacenes de datos

    Puede crear almacenes de datos a partir de estas soluciones de Azure Storage. En el caso de las soluciones de almacenamiento no compatibles, y para ahorrar el costo de salida durante los experimentos de ML, debe mover los datos a una solución de Azure Storage compatible. Más información sobre los almacenes de datos.

    Puede crear almacenes de datos con acceso basado en credenciales o acceso basado en identidades.

    Cree un nuevo almacén de datos en unos cuantos pasos con Azure Machine Learning Studio.

    Importante

    Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración adicionales para garantizar que Studio tenga acceso a los datos. Vea Aislamiento de red y privacidad para asegurarse de que se aplican los pasos de configuración adecuados.

    1. Inicie sesión en Azure Machine Learning Studio.
    2. Seleccione Datos en el panel izquierdo en Activos.
    3. En la parte superior, seleccione Almacenes de datos.
    4. Seleccione +Crear.
    5. Rellene el formulario para crear y registrar un nuevo almacén de datos. El formulario se actualiza de forma inteligente según las selecciones de tipo de Azure Storage y de autenticación. Consulte la sección Permisos y acceso a Storage para saber dónde encontrar las credenciales de autenticación que necesita para rellenar este formulario.

    En el ejemplo siguiente se muestra el aspecto que tendría el formulario al crear un almacén de Azure Blob:

    Form for a new datastore

    Creación de recursos de datos

    Después de crear un almacén de datos, cree un conjunto de datos para interactuar con los datos. Los conjuntos de datos empaquetan sus datos en un objeto consumible evaluado de forma diferida para tareas de aprendizaje automático, como un curso. Más información sobre los conjuntos de datos.

    Hay dos tipos de conjuntos de datos, FileDataset y TabularDataset. Los objetos FileDataset crean referencias a uno o varios archivos o direcciones URL públicas. Mientras que los objetos TabularDataset representan los datos en formato tabular. Puede crear objetos TabularDataset a partir de archivos .csv, .tsv, .parquet y .jsonl, así como de los resultados de una consulta SQL.

    Los siguientes pasos describen cómo crear un conjunto de datos en el estudio de Azure Machine Learning.

    Nota

    Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.

    1. Vaya a Estudio de Azure Machine Learning

    2. En Recursos en el panel de navegación izquierdo, seleccione Datos. En la pestaña Recursos de datos, seleccione Crear This screenshot highlights Create in the Data assets tab.

    3. Asigne un nombre al recurso de datos y una descripción opcional. A continuación, en Tipo, seleccione uno de los tipos de conjunto de datos, archivo o tabular. This screenshot shows set the name, description, and type of the data asset.

    4. Tiene algunas opciones para el origen de datos. Si los datos ya están almacenados en Azure, elija "Desde Azure Storage". Si desea cargar datos desde la unidad local, elija "Desde archivos locales". Si los datos se almacenan en una ubicación web pública, elija "Desde archivos web". También puede crear un recurso de datos desde una base de datos SQL o desde Azure Open Datasets.

    5. Para el paso de selección de archivos, seleccione dónde desea que los datos se almacenen en Azure y qué archivos de datos desea usar.

      1. Habilite la omisión de la validación si los datos están en una red virtual. Obtenga más información acerca del aislamiento de red virtual y la privacidad.
    6. Siga los pasos para establecer la configuración y el esquema de análisis de datos para el recurso de datos. La configuración se rellenará previamente en función del tipo de archivo y podrá configurar aún más las opciones antes de crear el recurso de datos.

    7. Una vez que llegue al paso Revisar, haga clic en Crear en la última página.

    Versión preliminar y perfil de los datos

    Después de crear su conjunto de datos, compruebe que puede ver la versión preliminar y el perfil en el estudio con los siguientes pasos:

    1. Inicie sesión en Azure Machine Learning Studio.
    2. En Recursos en el panel de navegación izquierdo, seleccione Datos. Screenshot highlights Create in the Data assets tab.
    3. Seleccione el nombre del conjunto de datos que quiere ver.
    4. Seleccione la pestaña Explore (Explorar).
    5. Seleccione la pestaña Vista previa. Screenshot shows a preview of a dataset.
    6. Seleccione la pestaña Perfil. Screenshot shows dataset column metadata in the Profile tab.

    Puede obtener una gran variedad de estadísticas de resumen en el conjunto de datos para comprobar si dicho conjunto está listo para ML. Para las columnas no numéricas, solo incluyen estadísticas básicas, como mínimo, máximo y recuento de errores. Para las columnas numéricas, también puede revisar sus momentos estadísticos y los cuantiles estimados.

    En concreto, el perfil de datos del conjunto de datos de Azure Machine Learning incluye:

    Nota

    Aparecen entradas en blanco para las características con tipos irrelevantes.

    Estadísticas Descripción
    Característica Nombre de la columna que se está resumiendo.
    Perfil Visualización en línea según el tipo inferido. Por ejemplo, las cadenas, los tipos booleanos y las fechas tendrán recuentos de valores, mientras que los tipos decimales (valores numéricos) tendrán histogramas aproximados. Esto le permite obtener una descripción rápida de la distribución de los datos.
    Distribución de tipo Recuento de valor en línea de los tipos dentro de una columna. Los valores Null son su propio tipo, por lo que esta visualizaicón es útil para detectar los valores impares o que faltan.
    Tipo Tipo inferido de la columna. Los valores posibles incluyen: cadenas, valores booleanos, fechas y decimales.
    Min Valor mínimo de la columna. Aparecen entradas en blanco para características cuyo tipo no tiene una ordenación inherente (por ejemplo, valores booleanos).
    Max Valor máximo de la columna.
    Count Número total de entradas que faltan y que no faltan en la columna.
    No falta el recuento Número de entradas de la columna que no faltan. Las cadenas vacías y los errores se tratan como valores, por lo que no contribuirán a la lista "No falta el recuento".
    Cuantiles Valores aproximados en cada cuantil para proporcionar una idea de la distribución de los datos.
    Media Media aritmética o promedio de la columna.
    Desviación estándar Medida de la cantidad de dispersión o variación de los datos de esta columna.
    Variance Medida de la diferencia de los datos de esta columna con respecto a su valor medio.
    Asimetría Medida de la diferencia entre los datos de esta columna y la distribución normal.
    Curtosis La medida de la cantidad de datos en cola de esta columna se compara con una distribución normal.

    Permisos y acceso a Storage

    Para garantizar una conexión segura al servicio Azure Storage, Azure Machine Learning exige que se tenga permiso para acceder al almacenamiento de datos correspondiente. Este acceso depende de las credenciales de autenticación usadas para registrar el almacén de datos.

    Virtual network

    Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración extra para garantizar que Azure Machine Learning tenga acceso a los datos. Consulte Uso de Azure Machine Learning Studio en una red virtual para asegurarse de que se aplican los pasos de configuración adecuados al crear y registrar el almacén de datos.

    Validación de acceso

    Advertencia

    No se admite el acceso entre inquilinos a las cuentas de almacenamiento. Si el acceso entre inquilinos es necesario para su escenario, póngase en contacto con el alias de equipo de soporte técnico de datos de Azure Machine Learning en amldatasupport@microsoft.com para obtener ayuda con una solución de código personalizada.

    Como parte del proceso de creación y registro del almacén de datos inicial, Azure Machine Learning valida automáticamente que el servicio de almacenamiento subyacente exista y que la entidad de seguridad proporcionada por el usuario (nombre de usuario, entidad de servicio o token de SAS) tenga acceso al almacenamiento especificado.

    Una vez creado el almacén de datos, esta validación solo se realiza para los métodos que requieren acceso al contenedor de almacenamiento subyacente, y no cada vez que se recuperan objetos del almacén de datos. Por ejemplo, la validación se produce si quiere descargar archivos del almacén de archivos. Sin embargo, no se produce si solo quiere cambiar el almacén de datos predeterminado.

    Para autenticar su acceso al servicio de almacenamiento subyacente, puede proporcionar la clave de cuenta, tokens de firmas de acceso compartido (SAS) o una entidad de servicio en función del tipo de almacén de datos que quiere crear. La matriz de tipo de almacenamiento muestra los tipos de autenticación admitidos que corresponden a cada tipo de almacén de datos.

    Encontrará información sobre la clave de cuenta, el token de SAS y la entidad de servicio en Azure Portal.

    • Si tiene previsto usar una clave de cuenta o un token de SAS para la autenticación, seleccione Cuentas de almacenamiento en el panel izquierdo y elija la cuenta de almacenamiento que quiere registrar.

      • La página Información general proporciona información como el nombre de la cuenta, el contenedor y el nombre del recurso compartido de archivos.
        1. En el caso de las claves de cuenta, vaya a Claves de acceso en el panel Configuración.
        2. En el caso de los tokens de SAS, vaya a Firmas de acceso compartido en el panel Configuración.
    • Si piensa usar una entidad de servicio para la autenticación, vaya a Registros de aplicaciones y seleccione la aplicación que quiere usar.

      • Su página de información general correspondiente contendrá la información necesaria, como el id. de inquilino y de cliente.

    Importante

    • Si necesita cambiar las claves de acceso de una cuenta de Azure Storage (clave de cuenta o token de SAS), asegúrese de sincronizar las credenciales nuevas con el área de trabajo y los almacenes de datos conectados a ella. Obtenga información sobre cómo sincronizar las credenciales actualizadas.

    • Si anula el registro y vuelve a registrar un almacén de datos con el mismo nombre y se produce un error, es posible que la instancia de Azure Key Vault del área de trabajo no tenga habilitada la eliminación temporal. De manera predeterminada, la eliminación temporal está habilitada para la instancia del almacén de claves que creó el área de trabajo, pero podría no estar habilitada si usó un almacén de claves existente, o si creó el área de trabajo antes de octubre de 2020. Para obtener información sobre cómo habilitar la eliminación temporal, consulte Activación de la eliminación temporal de un almacén de claves existente.

    Permisos

    Para el almacenamiento de Azure Data Lake Gen 2 y del contenedor de blobs de Azure, asegúrese de que las credenciales de autenticación tengan acceso al Lector de datos de Storage Blob. Obtenga más información sobre el Lector de datos de Storage Blob. Un token de SAS de cuenta no tiene de forma predeterminada ningún permiso.

    • Para el acceso de lectura de datos, las credenciales de autenticación deben tener un número mínimo de permisos de enumeración y lectura para contenedores y objetos.

    • Para el acceso de escritura de datos, también se necesitan los permisos de escritura y agregación.

    Entrenamiento con conjuntos de datos

    Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.

    Pasos siguientes