Administración de datos
Obtenga información sobre cómo administrar el acceso a los datos y cómo autenticarse en Azure Machine Learning.
SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)
Importante
Este artículo está dirigido a los administradores de Azure que quieran crear la infraestructura necesaria para una solución de Azure Machine Learning.
Autenticación de datos basada en credenciales
En general, la autenticación de datos basada en credenciales conlleva estas comprobaciones:
Compruebe que el usuario que accede a los datos del almacén de datos basado en credenciales tiene asignado un rol con el control de acceso basado en rol (RBAC) que contiene
Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action
Este permiso es necesario para recuperar credenciales del almacén de datos para el usuario.
Roles integrados que ya contienen este permiso:
- Colaborador
- Desarrollador de Azure AI
- Científico de datos de Azure Machine Learning
- Como alternativa, si se aplica un rol personalizado, este permiso debe agregarse a ese rol personalizado
Debe saber que usuario específico quiere acceder a los datos. Un usuario específico puede ser un usuario real con una identidad de usuario. También puede ser un equipo con identidad administrada de proceso (MSI). Para obtener más información, visite la sección Escenarios y opciones de autenticación para determinar la identidad que necesita el permiso agregado.
¿La credencial almacenada (entidad de servicio, clave de cuenta o token de firma de acceso compartido) tiene acceso al recurso de datos?
Autenticación de datos basada en identidad
En general, la autenticación de datos basada en identidad conlleva estas comprobaciones:
- ¿Qué usuario quiere acceder a los recursos?
- Hay disponibles diferentes tipos de autenticación, en función del contexto en el momento en que se accede a los datos. Por ejemplo:
- Identidad del usuario
- Identidad administrada de proceso
- Identidad administrada del área de trabajo
- Los trabajos, incluida la opción
Generate Profile
de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad administrada de proceso necesita permiso para acceder al recurso de almacenamiento, en lugar de la identidad del usuario que envió el trabajo. - Para la autenticación basada en una identidad de usuario, debe saber qué usuario específico intentó acceder al recurso de almacenamiento. Para obtener más información sobre la autenticación de usuario, visite Autenticación para Azure Machine Learning. Para más información sobre la autenticación de nivel de servicio, visite Autenticación entre Azure Machine Learning y otros servicios.
- Hay disponibles diferentes tipos de autenticación, en función del contexto en el momento en que se accede a los datos. Por ejemplo:
- ¿Tiene este usuario permiso de lectura para el recurso?
- ¿La identidad del usuario o la identidad administrada de proceso tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante RBAC de Azure.
- El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
- El lector de datos de Storage Blob lee y enumera los contenedores y blobs de almacenamiento.
- El Lector con privilegios de datos de archivos de Storage vuelve a enumerar archivos y directorios en recursos compartidos de archivos de Azure.
- Para más información, visite roles integrados de Azure para el almacenamiento.
- ¿Tiene este usuario permiso de escritura para el recurso?
- ¿La identidad del usuario o la identidad administrada de proceso tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante RBAC de Azure.
- El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
- El colaborador de datos de Storage Blob lee, escribe y elimina contenedores y blobs de Azure Storage.
- El Colaborador con privilegios de datos de archivos de Storage lee, escribe, elimina y modifica listas de control de acceso en archivos y directorios de recursos compartidos de archivos de Azure.
- Para más información, visite roles integrados de Azure para el almacenamiento.
Otras comprobaciones generales para la autenticación
- ¿Qué accederá exactamente al recurso?
- Usuario: ¿la dirección IP del cliente está en el intervalo de red virtual o subred?
- Área de trabajo: ¿es el área de trabajo pública o tiene un punto de conexión privado en una red virtual o subred?
- Almacenamiento: ¿el almacenamiento permite el acceso público o restringe el acceso mediante un punto de conexión de servicio o un punto de conexión privado?
- ¿Cuál es la operación planeada?
- Control de Azure Machine Learning
- Crear
- Leer
- Actualizar
- Operaciones de eliminación (CRUD) en un almacén o conjunto de datos.
- Las operaciones de archivo en los recursos de datos del Estudio de Azure Machine Learning requieren esta operación de RBAC:
Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
- Las llamadas de acceso a datos (por ejemplo, versión preliminar o esquema) van al almacenamiento subyacente y requieren permisos adicionales.
- Control de Azure Machine Learning
- ¿Esta operación se ejecutará en recursos de proceso de suscripción de Azure o recursos hospedados en una suscripción de Microsoft?
- Todas las llamadas a los servicios de almacén de datos y conjunto de datos (excepto la opción
Generate Profile
) usan recursos hospedados en una suscripción de Microsoft para ejecutar las operaciones. - Los trabajos, incluida la opción
Generate Profile
de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad de proceso necesita permiso para el recurso de almacenamiento, en lugar de la identidad del usuario que envió el trabajo.
- Todas las llamadas a los servicios de almacén de datos y conjunto de datos (excepto la opción
En este diagrama se muestra el flujo general de una llamada de acceso a datos. Aquí, un usuario intenta realizar una llamada de acceso a datos a través de un área de trabajo de Machine Learning, sin usar un recurso de proceso.
Escenarios y opciones de autenticación
En esta tabla se enumeran las identidades que se van a usar para escenarios específicos:
Configuración | Máquina virtual local o de cuadernos del SDK | Trabajo | Vista previa del conjunto de datos | Examen de almacén de datos |
---|---|---|---|---|
Credenciales + MSI de área de trabajo | Credential: | Credential: | MSI del área de trabajo | Credencial (solo clave de cuenta y token de firma de acceso compartido) |
Sin credenciales + MSI de área de trabajo | Identidad del usuario/MSI de proceso | Identidad del usuario/MSI de proceso | MSI del área de trabajo | Identidad del usuario |
Credenciales + sin MSI de área de trabajo | Credential: | Credential: | Credenciales (no compatible con la versión preliminar del conjunto de datos en la red privada) | Credencial (solo clave de cuenta y token de firma de acceso compartido) |
Sin credenciales + sin MSI de área de trabajo | Identidad del usuario/MSI de proceso | Identidad del usuario/MSI de proceso | Identidad del usuario | Identidad del usuario |
En el caso del SDK V1, la autenticación de datos en un trabajo siempre usa MSI de proceso. Para SDK V2, la autenticación de datos en un trabajo depende de la configuración del trabajo. Puede ser identidad de usuario o MSI de cálculo, según la configuración de ese trabajo.
Sugerencia
Para acceder a datos desde fuera de Machine Learning, por ejemplo, con el Explorador de Azure Storage, ese acceso probablemente se basa en la identidad del usuario. Para obtener información específica, revise la documentación de la herramienta o el servicio que planea usar. Para más información sobre cómo funciona Machine Learning con datos, visite Configuración de la autenticación entre Azure Machine Learning y otros servicios.
Requisitos específicos de red virtual
Esta información le ayuda a configurar la autenticación de datos desde un área de trabajo de Machine Learning para acceder a los datos detrás de una red virtual.
Incorporación de permisos a una cuenta de almacenamiento a la identidad administrada del área de trabajo de Machine Learning
Al usar una cuenta de almacenamiento desde el estudio, si desea ver la versión preliminar del conjunto de datos, debe habilitar Usar la identidad administrada del área de trabajo para la versión preliminar de datos y la generación de perfiles en Estudio de Azure Machine Learning en la configuración del almacén de datos. A continuación, agregue estos roles de Azure RBAC de la cuenta de almacenamiento a la identidad administrada del área de trabajo:
- Lector de datos de blob
- Si la cuenta de almacenamiento usa un punto de conexión privado para conectarse a la red virtual, debe conceder a la identidad administrada el rol Lector para el punto de conexión privado de la cuenta de almacenamiento.
Para más información, visite Uso de Azure Machine Learning Studio en una red virtual de Azure.
En estas secciones se explican las limitaciones del uso de una cuenta de almacenamiento, con el área de trabajo, en una red virtual.
Protección de la comunicación con la cuenta de almacenamiento
Para proteger la comunicación entre Machine Learning y las cuentas de almacenamiento, configure el almacenamiento para conceder acceso a servicios de Azure de confianza.
Firewall de Azure Storage
Para una cuenta de almacenamiento situada detrás de una red virtual, el firewall de almacenamiento normalmente puede permitir que su cliente se conecte directamente a través de Internet. Sin embargo, al usar estudio, el cliente no se conecta a la cuenta de almacenamiento. Machine Learning Service que realiza la solicitud se conecta a la cuenta de almacenamiento. La dirección IP del servicio no está documentada y cambia con frecuencia. Habilitar el firewall de almacenamiento no permite que el estudio acceda a la cuenta de almacenamiento en una configuración de red virtual.
Tipo de punto de conexión de Azure Storage
Cuando el área de trabajo usa un punto de conexión privado y la cuenta de almacenamiento también está en la red virtual, surgen unos requisitos de validación adicionales al usar estudio.
- Si la cuenta de almacenamiento usa un punto de conexión de servicio, el punto de conexión privado del área de trabajo y el punto de conexión del servicio de almacenamiento deben estar en la misma subred que la red virtual.
- Si la cuenta de almacenamiento usa un punto de conexión privado, el punto de conexión privado del área de trabajo y el punto de conexión privado de almacenamiento deben estar en la misma subred que la red virtual. En este caso, pueden estar en subredes diferentes.
Azure Data Lake Storage Gen1
Si usa Azure Data Lake Storage Gen1 como almacén de datos, solo puede utilizar listas de control de acceso de estilo POSIX. Puede asignar el acceso de la identidad administrada del área de trabajo a los recursos como cualquier otra entidad de seguridad. Para más información, visite Control de acceso en Azure Data Lake Storage Gen1.
Azure Data Lake Storage Gen2
Si usa Azure Data Lake Storage Gen2, como almacén de datos, puede usar listas de control de acceso de Azure RBAC y de estilo POSIX para controlar el acceso a los datos dentro de una red virtual.
- Para usar RBAC de Azure: siga los pasos descritos en Almacén de datos: Cuenta de Azure Storage. Data Lake Storage Gen2 se basa en Azure Storage, por lo que se aplican los mismos pasos al usar Azure RBAC.
- Para usar las listas de control de acceso: el acceso de la identidad administrada del área de trabajo se puede asignar como cualquier otra entidad de seguridad. Para obtener más información, visite listas de control de acceso en archivos y directorios.
Pasos siguientes
Para más información sobre cómo habilitar Estudio en una red, vea Uso de Estudio de Azure Machine Learning en una red virtual de Azure.