Conexión a los datos con Azure Machine Learning Studio
En este artículo, aprenderá a acceder a los datos con Azure Machine Learning Studio. Conéctese a los datos de los servicios de almacenamiento en Azure con almacenes de datos de Azure Machine Learning y luego empaquete esos datos para las tareas de los flujos de trabajo de ML con conjuntos de datos de Azure Machine Learning.
En la tabla siguiente se definen y resumen las ventajas de los almacenes de datos y los conjuntos de datos.
Object | Descripción | Ventajas |
---|---|---|
Almacenes de datos | Conéctese de forma segura al servicio de almacenamiento en Azure y almacene la información de conexión, como el identificador de suscripción y la autorización de token de su instancia de Key Vault asociada el área de trabajo. | Dado que la información se almacena de forma segura: |
Conjuntos de datos | Mediante la creación de un conjunto de datos, puede crear una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Con los conjuntos de datos puede: |
Dado que los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, usted: |
Para comprender dónde encajan los almacenes de datos y los conjuntos de datos en el flujo de trabajo global de acceso a datos de Azure Machine Learning, vea el artículo Acceso seguro a los datos.
Para obtener una experiencia de Code First, consulte los artículos siguientes para usar el SDK de Python de Azure Machine Learning para:
- Conectarse a servicios de Azure Storage con almacenes de datos.
- Crear conjuntos de datos de Azure Machine Learning.
Requisitos previos
Suscripción a Azure. Si no tiene una suscripción de Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.
Acceso a Azure Machine Learning Studio.
Un área de trabajo de Azure Machine Learning. Creación de recursos para el área de trabajo.
- Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure como almacenes de datos en el área de trabajo. Se denominan
workspaceblobstore
yworkspacefilestore
, respectivamente. Si el almacenamiento de blobs es suficiente para sus necesidades,workspaceblobstore
se establece como almacén de datos predeterminado y ya está configurado para su uso. De lo contrario, necesita una cuenta de almacenamiento en Azure con un tipo de almacenamiento compatible.
- Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure como almacenes de datos en el área de trabajo. Se denominan
Creación de almacenes de datos
Puede crear almacenes de datos a partir de estas soluciones de Azure Storage. En el caso de las soluciones de almacenamiento no compatibles, y para ahorrar el costo de salida durante los experimentos de ML, debe mover los datos a una solución de Azure Storage compatible. Más información sobre los almacenes de datos.
Puede crear almacenes de datos con acceso basado en credenciales o acceso basado en identidades.
Cree un nuevo almacén de datos en unos cuantos pasos con Azure Machine Learning Studio.
Importante
Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración adicionales para garantizar que Studio tenga acceso a los datos. Vea Aislamiento de red y privacidad para asegurarse de que se aplican los pasos de configuración adecuados.
- Inicie sesión en Azure Machine Learning Studio.
- Seleccione Datos en el panel izquierdo en Activos.
- En la parte superior, seleccione Almacenes de datos.
- Seleccione +Crear.
- Rellene el formulario para crear y registrar un nuevo almacén de datos. El formulario se actualiza de forma inteligente según las selecciones de tipo de Azure Storage y de autenticación. Consulte la sección Permisos y acceso a Storage para saber dónde encontrar las credenciales de autenticación que necesita para rellenar este formulario.
En el ejemplo siguiente se muestra el aspecto que tendría el formulario al crear un almacén de Azure Blob:
Creación de recursos de datos
Después de crear un almacén de datos, cree un conjunto de datos para interactuar con los datos. Los conjuntos de datos empaquetan sus datos en un objeto consumible evaluado de forma diferida para tareas de aprendizaje automático, como un curso. Más información sobre los conjuntos de datos.
Hay dos tipos de conjuntos de datos, FileDataset y TabularDataset. Los objetos FileDataset crean referencias a uno o varios archivos o direcciones URL públicas. Mientras que los objetos TabularDataset representan los datos en formato tabular. Puede crear objetos TabularDataset a partir de archivos .csv, .tsv, .parquet y .jsonl, así como de los resultados de una consulta SQL.
Los siguientes pasos describen cómo crear un conjunto de datos en el estudio de Azure Machine Learning.
Nota
Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.
En Recursos en el panel de navegación izquierdo, seleccione Datos. En la pestaña Recursos de datos, seleccione Crear
Asigne un nombre al recurso de datos y una descripción opcional. A continuación, en Tipo, seleccione uno de los tipos de conjunto de datos, archivo o tabular.
Tiene algunas opciones para el origen de datos. Si los datos ya están almacenados en Azure, elija "Desde Azure Storage". Si desea cargar datos desde la unidad local, elija "Desde archivos locales". Si los datos se almacenan en una ubicación web pública, elija "Desde archivos web". También puede crear un recurso de datos desde una base de datos SQL o desde Azure Open Datasets.
Para el paso de selección de archivos, seleccione dónde desea que los datos se almacenen en Azure y qué archivos de datos desea usar.
- Habilite la omisión de la validación si los datos están en una red virtual. Obtenga más información acerca del aislamiento de red virtual y la privacidad.
Siga los pasos para establecer la configuración y el esquema de análisis de datos para el recurso de datos. La configuración se rellenará previamente en función del tipo de archivo y podrá configurar aún más las opciones antes de crear el recurso de datos.
Una vez que llegue al paso Revisar, haga clic en Crear en la última página.
Versión preliminar y perfil de los datos
Después de crear su conjunto de datos, compruebe que puede ver la versión preliminar y el perfil en el estudio con los siguientes pasos:
- Inicie sesión en Azure Machine Learning Studio.
- En Recursos en el panel de navegación izquierdo, seleccione Datos.
- Seleccione el nombre del conjunto de datos que quiere ver.
- Seleccione la pestaña Explore (Explorar).
- Seleccione la pestaña Vista previa.
- Seleccione la pestaña Perfil.
Puede obtener una gran variedad de estadísticas de resumen en el conjunto de datos para comprobar si dicho conjunto está listo para ML. Para las columnas no numéricas, solo incluyen estadísticas básicas, como mínimo, máximo y recuento de errores. Para las columnas numéricas, también puede revisar sus momentos estadísticos y los cuantiles estimados.
En concreto, el perfil de datos del conjunto de datos de Azure Machine Learning incluye:
Nota
Aparecen entradas en blanco para las características con tipos irrelevantes.
Estadísticas | Descripción |
---|---|
Característica | Nombre de la columna que se está resumiendo. |
Perfil | Visualización en línea según el tipo inferido. Por ejemplo, las cadenas, los tipos booleanos y las fechas tendrán recuentos de valores, mientras que los tipos decimales (valores numéricos) tendrán histogramas aproximados. Esto le permite obtener una descripción rápida de la distribución de los datos. |
Distribución de tipo | Recuento de valor en línea de los tipos dentro de una columna. Los valores Null son su propio tipo, por lo que esta visualizaicón es útil para detectar los valores impares o que faltan. |
Tipo | Tipo inferido de la columna. Los valores posibles incluyen: cadenas, valores booleanos, fechas y decimales. |
Min | Valor mínimo de la columna. Aparecen entradas en blanco para características cuyo tipo no tiene una ordenación inherente (por ejemplo, valores booleanos). |
Max | Valor máximo de la columna. |
Count | Número total de entradas que faltan y que no faltan en la columna. |
No falta el recuento | Número de entradas de la columna que no faltan. Las cadenas vacías y los errores se tratan como valores, por lo que no contribuirán a la lista "No falta el recuento". |
Cuantiles | Valores aproximados en cada cuantil para proporcionar una idea de la distribución de los datos. |
Media | Media aritmética o promedio de la columna. |
Desviación estándar | Medida de la cantidad de dispersión o variación de los datos de esta columna. |
Variance | Medida de la diferencia de los datos de esta columna con respecto a su valor medio. |
Asimetría | Medida de la diferencia entre los datos de esta columna y la distribución normal. |
Curtosis | La medida de la cantidad de datos en cola de esta columna se compara con una distribución normal. |
Permisos y acceso a Storage
Para garantizar una conexión segura al servicio Azure Storage, Azure Machine Learning exige que se tenga permiso para acceder al almacenamiento de datos correspondiente. Este acceso depende de las credenciales de autenticación usadas para registrar el almacén de datos.
Virtual network
Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración extra para garantizar que Azure Machine Learning tenga acceso a los datos. Consulte Uso de Azure Machine Learning Studio en una red virtual para asegurarse de que se aplican los pasos de configuración adecuados al crear y registrar el almacén de datos.
Validación de acceso
Advertencia
No se admite el acceso entre inquilinos a las cuentas de almacenamiento. Si el acceso entre inquilinos es necesario para su escenario, póngase en contacto con el alias de equipo de soporte técnico de datos de Azure Machine Learning en amldatasupport@microsoft.com para obtener ayuda con una solución de código personalizada.
Como parte del proceso de creación y registro del almacén de datos inicial, Azure Machine Learning valida automáticamente que el servicio de almacenamiento subyacente exista y que la entidad de seguridad proporcionada por el usuario (nombre de usuario, entidad de servicio o token de SAS) tenga acceso al almacenamiento especificado.
Una vez creado el almacén de datos, esta validación solo se realiza para los métodos que requieren acceso al contenedor de almacenamiento subyacente, y no cada vez que se recuperan objetos del almacén de datos. Por ejemplo, la validación se produce si quiere descargar archivos del almacén de archivos. Sin embargo, no se produce si solo quiere cambiar el almacén de datos predeterminado.
Para autenticar su acceso al servicio de almacenamiento subyacente, puede proporcionar la clave de cuenta, tokens de firmas de acceso compartido (SAS) o una entidad de servicio en función del tipo de almacén de datos que quiere crear. La matriz de tipo de almacenamiento muestra los tipos de autenticación admitidos que corresponden a cada tipo de almacén de datos.
Encontrará información sobre la clave de cuenta, el token de SAS y la entidad de servicio en Azure Portal.
Si tiene previsto usar una clave de cuenta o un token de SAS para la autenticación, seleccione Cuentas de almacenamiento en el panel izquierdo y elija la cuenta de almacenamiento que quiere registrar.
- La página Información general proporciona información como el nombre de la cuenta, el contenedor y el nombre del recurso compartido de archivos.
- En el caso de las claves de cuenta, vaya a Claves de acceso en el panel Configuración.
- En el caso de los tokens de SAS, vaya a Firmas de acceso compartido en el panel Configuración.
- La página Información general proporciona información como el nombre de la cuenta, el contenedor y el nombre del recurso compartido de archivos.
Si piensa usar una entidad de servicio para la autenticación, vaya a Registros de aplicaciones y seleccione la aplicación que quiere usar.
- Su página de información general correspondiente contendrá la información necesaria, como el id. de inquilino y de cliente.
Importante
- Si necesita cambiar las claves de acceso de una cuenta de Azure Storage (clave de cuenta o token de SAS), asegúrese de sincronizar las credenciales nuevas con el área de trabajo y los almacenes de datos conectados a ella. Obtenga información sobre cómo sincronizar las credenciales actualizadas.
- Si anula el registro y vuelve a registrar un almacén de datos con el mismo nombre y se produce un error, es posible que la instancia de Azure Key Vault del área de trabajo no tenga habilitada la eliminación temporal. De manera predeterminada, la eliminación temporal está habilitada para la instancia del almacén de claves que creó el área de trabajo, pero podría no estar habilitada si usó un almacén de claves existente, o si creó el área de trabajo antes de octubre de 2020. Para obtener información sobre cómo habilitar la eliminación temporal, consulte Activación de la eliminación temporal de un almacén de claves existente.
Permisos
Para el almacenamiento de Azure Data Lake Gen 2 y del contenedor de blobs de Azure, asegúrese de que las credenciales de autenticación tengan acceso al Lector de datos de Storage Blob. Obtenga más información sobre el Lector de datos de Storage Blob. Un token de SAS de cuenta no tiene de forma predeterminada ningún permiso.
Para el acceso de lectura de datos, las credenciales de autenticación deben tener un número mínimo de permisos de enumeración y lectura para contenedores y objetos.
Para el acceso de escritura de datos, también se necesitan los permisos de escritura y agregación.
Entrenamiento con conjuntos de datos
Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.
Pasos siguientes
Ejemplo de entrenamiento paso a paso con TabularDatasets y ML automatizado.
Para ver más ejemplos de entrenamiento de conjuntos de datos, consulte los cuadernos de ejemplo.