Administración de datos

Obtenga información sobre cómo administrar el acceso a los datos y cómo autenticarse en Azure Machine Learning.

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

Importante

Este artículo está dirigido a los administradores de Azure que quieran crear la infraestructura necesaria para una solución de Azure Machine Learning.

Autenticación de datos basada en credenciales

En general, la autenticación de datos basada en credenciales conlleva estas comprobaciones:

  • ¿Al usuario que tiene acceso a los datos desde el almacén de datos basado en credenciales se le ha asignado un rol de con control de acceso basado en rol (RBAC) que contiene Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action?

    • Este permiso es necesario para recuperar credenciales del almacén de datos para el usuario.
    • Los roles integrados que contienen este permiso ya son Colaborador, Desarrollador de Azure AI o Científico de datos de Azure Machine Learning. Como alternativa, si se aplica un rol personalizado, debe asegurarse de que este permiso se agrega al rol personalizado.
    • Debe saber qué usuario específico está intentando acceder a los datos. Puede ser un usuario real con una identidad de usuario o un equipo con identidad administrada de proceso (MSI). Consulte la sección Escenarios y opciones de autenticación para identificar la identidad para la que necesita agregar permiso.
  • ¿La credencial almacenada (entidad de servicio, clave de cuenta o token de firma de acceso compartido) tiene acceso al recurso de datos?

Autenticación de datos basada en identidad

En general, la autenticación de datos basada en identidad conlleva estas comprobaciones:

  • ¿Qué usuario quiere acceder a los recursos?
    • Según el contexto en que se accede a los datos, hay disponibles diferentes tipos de autenticación, por ejemplo:
      • Identidad del usuario
      • Identidad administrada de proceso
      • Identidad administrada del área de trabajo
    • Los trabajos, incluida la opción Generate Profile de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad administrada de proceso necesita permiso para el recurso de almacenamiento, y no la identidad del usuario que envió el trabajo.
    • Para la autenticación basada en una identidad de usuario, debe saber qué usuario específico intentó acceder al recurso de almacenamiento. Para más información sobre la autenticación de usuario, consulte Autenticación para Azure Machine Learning. Para más información sobre la autenticación en el nivel de servicio, vea Autenticación entre Azure Machine Learning y otros servicios.
  • ¿Tiene este usuario permiso de lectura?
    • ¿La identidad del usuario o la identidad administrada de proceso tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante RBAC de Azure.
    • El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
    • El lector de datos de Storage Blob lee y enumera los contenedores y blobs de almacenamiento.
    • Para obtener más información, consulte Roles integrados de Azure para almacenamiento.
  • ¿Tiene este usuario permiso de escritura?
    • ¿La identidad del usuario o la identidad administrada de proceso tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante RBAC de Azure.
    • El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
    • El colaborador de datos de Storage Blob lee, escribe y elimina contenedores y blobs de Azure Storage.
    • Para obtener más información, consulte Roles integrados de Azure para almacenamiento.

Otras comprobaciones generales para la autenticación

  • ¿De dónde procede el acceso?
    • Usuario: ¿la dirección IP del cliente está en el intervalo de red virtual o subred?
    • Área de trabajo: ¿es el área de trabajo pública o tiene un punto de conexión privado en una red virtual o subred?
    • Almacenamiento: ¿el almacenamiento permite el acceso público o restringe el acceso mediante un punto de conexión de servicio o un punto de conexión privado?
  • ¿Qué operación se realizará?
    • Azure Machine Learning controla las operaciones de creación, lectura, actualización y eliminación (CRUD) en un almacén de datos o conjunto de datos.
    • Las operaciones de archivo en los recursos de datos del Estudio de Azure Machine Learning requieren esta operación de RBAC: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Las llamadas de acceso a datos (como la versión preliminar o el esquema) van al almacenamiento subyacente y necesitan permisos adicionales.
  • ¿Se ejecutará esta operación en los recursos de proceso de su suscripción a Azure o en los recursos hospedados en una suscripción de Microsoft?
    • Todas las llamadas a los servicios de almacén de datos y conjunto de datos (excepto la opción Generate Profile) usan recursos hospedados en una suscripción de Microsoft para ejecutar las operaciones.
    • Los trabajos, incluida la opción Generate Profile de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad de proceso necesita permiso para el recurso de almacenamiento, en lugar de la identidad del usuario que envió el trabajo.

En este diagrama se muestra el flujo general de una llamada de acceso a datos. Aquí, un usuario intenta realizar una llamada de acceso a datos a través de un área de trabajo de aprendizaje automático, sin usar un recurso de proceso.

Diagrama del flujo lógico al acceder a los datos.

Escenarios y opciones de autenticación

En esta tabla se enumeran las identidades que se van a usar para escenarios específicos.

Configuración Máquina virtual local o de cuadernos del SDK Trabajo Vista previa del conjunto de datos Examen de almacén de datos
Credenciales + MSI de área de trabajo Credential: Credential: MSI del área de trabajo Credencial (solo clave de cuenta y token de firma de acceso compartido)
Sin credenciales + MSI de área de trabajo Identidad del usuario/MSI de proceso Identidad del usuario/MSI de proceso MSI del área de trabajo Identidad del usuario
Credenciales + sin MSI de área de trabajo Credential: Credential: Credenciales (no compatible con la versión preliminar del conjunto de datos en la red privada) Credencial (solo clave de cuenta y token de firma de acceso compartido)
Sin credenciales + sin MSI de área de trabajo Identidad del usuario/MSI de proceso Identidad del usuario/MSI de proceso Identidad del usuario Identidad del usuario

En el caso del SDK V1, la autenticación de datos en un trabajo siempre usa MSI de proceso. Para SDK V2, la autenticación de datos en un trabajo depende de la configuración del trabajo. Puede ser la identidad del usuario o MSI de proceso en función de la configuración.

Sugerencia

Para acceder a datos desde fuera de Machine Learning, por ejemplo, con el Explorador de Azure Storage, ese acceso probablemente se basa en la identidad del usuario. Para obtener información específica, revise la documentación de la herramienta o el servicio que usa. Para más información sobre cómo funciona Machine Learning con los datos, vea Configuración de la autenticación entre Azure Machine Learning y otros servicios.

Requisitos específicos de red virtual

La siguiente información le ayuda a configurar la autenticación de datos para acceder a los datos subyacentes de la red virtual desde un área de trabajo de Machine Learning.

Incorporación de permisos a una cuenta de almacenamiento a la identidad administrada del área de trabajo de Machine Learning

Al usar una cuenta de almacenamiento desde el estudio, si desea ver la versión preliminar del conjunto de datos, debe habilitar Usar la identidad administrada del área de trabajo para la versión preliminar de datos y la generación de perfiles en Estudio de Azure Machine Learning en la configuración del almacén de datos. A continuación, agregue estos roles de RBAC de Azure de la cuenta de almacenamiento a la identidad administrada del área de trabajo:

  • Lector de datos de blob
  • Si la cuenta de almacenamiento usa un punto de conexión privado para conectarse a la red virtual, debe conceder a la identidad administrada el rol Lector para el punto de conexión privado de la cuenta de almacenamiento.

Para obtener más información, consulte Uso de Azure Machine Learning en una red virtual de Azure.

En las secciones siguientes se explican las limitaciones del uso de una cuenta de almacenamiento, con el área de trabajo, en una red virtual.

Protección de la comunicación con la cuenta de almacenamiento

Para proteger la comunicación entre Machine Learning y las cuentas de almacenamiento, configure el almacenamiento para conceder acceso a servicios de Azure de confianza.

Firewall de Azure Storage

Cuando una cuenta de almacenamiento está detrás de una red virtual, el firewall de almacenamiento normalmente se puede usar para permitir que el cliente se conecte directamente a través de Internet. Sin embargo, al usar estudio, el cliente no se conecta a la cuenta de almacenamiento. Machine Learning Service que realiza la solicitud se conecta a la cuenta de almacenamiento. La dirección IP del servicio no está documentada y cambia con frecuencia. La habilitación del firewall de almacenamiento no permitirá que el estudio acceda a la cuenta de almacenamiento en una configuración de red virtual.

Tipo de punto de conexión de Azure Storage

Cuando el área de trabajo usa un punto de conexión privado y la cuenta de almacenamiento también está en la red virtual, surgen unos requisitos de validación adicionales al usar Estudio:

  • Si la cuenta de almacenamiento usa un punto de conexión de servicio, el punto de conexión privado del área de trabajo y el punto de conexión del servicio de almacenamiento deben estar en la misma subred que la red virtual.
  • Si la cuenta de almacenamiento usa un punto de conexión privado, el punto de conexión privado del área de trabajo y el punto de conexión privado de almacenamiento deben estar en la misma subred que la red virtual. En este caso, pueden estar en subredes diferentes.

Azure Data Lake Storage Gen1

Si usa Azure Data Lake Storage Gen1 como almacén de datos, solo puede utilizar listas de control de acceso de estilo POSIX. Puede asignar el acceso de la identidad administrada del área de trabajo a los recursos como cualquier otra entidad de seguridad. Para obtener más información, vea Control de acceso en Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Si usa Azure Data Lake Storage Gen2, como almacén de datos, puede usar listas de control de acceso de Azure RBAC y de estilo POSIX para controlar el acceso a los datos dentro de una red virtual.

Pasos siguientes

Para más información sobre cómo habilitar Estudio en una red, vea Uso de Estudio de Azure Machine Learning en una red virtual de Azure.