Administración de datos

Obtenga información sobre cómo administrar el acceso a los datos y cómo autenticarse en Azure Machine Learning.

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

Importante

Este artículo está dirigido a los administradores de Azure que quieran crear la infraestructura necesaria para una solución de Azure Machine Learning.

Autenticación de datos basada en credenciales

En general, la autenticación de datos basada en credenciales de Studio conlleva estas comprobaciones:

  • ¿Al usuario que tiene acceso a los datos desde el almacén de datos basado en credenciales se le ha asignado un rol de RBAC que contiene Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action?
    • Este permiso es necesario para recuperar credenciales del almacén de datos en nombre del usuario.
  • ¿La credencial almacenada (entidad de servicio, clave de cuenta o token SAS) tiene acceso al recurso de datos?

Autenticación de datos basada en identidad

En general, la autenticación de datos basada en identidad de Studio conlleva estas comprobaciones:

  • ¿Qué usuario quiere acceder a los recursos?
    • Según el contexto en que se accede a los datos, hay disponibles diferentes tipos de autenticación, por ejemplo:
      • identidad de usuario
      • identidad administrada de proceso
      • identidad administrada del área de trabajo
    • Los trabajos, incluida la opción "Generar perfil" de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad administrada de proceso necesita permiso para el recurso de almacenamiento, y no la identidad del usuario que envió el trabajo.
    • Para la autenticación basada en una identidad de usuario, debe saber qué usuario específico intentó acceder al recurso de almacenamiento. Para más información sobre la autenticación de usuario, consulte Autenticación para Azure Machine Learning. Para más información sobre la autenticación en el nivel de servicio, vea Autenticación entre Azure Machine Learning y otros servicios.
  • ¿Tiene este usuario permiso de lectura?
    • ¿La identidad del usuario o la identidad administrada de proceso, etc., tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante controles de acceso basado en roles de Azure (RBAC de Azure).
    • El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
    • El lector de datos de Storage Blob lee y enumera los contenedores y blobs de Blob Storage.
    • Puede encontrar aquí más roles integrados de Azure.
  • ¿Tiene este usuario permiso de escritura?
    • ¿La identidad del usuario o la identidad administrada de proceso, etc., tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante controles de acceso basado en roles de Azure (RBAC de Azure).
    • El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
    • El colaborador de datos de Storage Blob lee, escribe y elimina contenedores y blobs de Azure Storage.
    • Puede encontrar aquí más roles integrados de Azure.

Otras comprobaciones generales para la autenticación

  • ¿De dónde procede el acceso?
    • Usuario: ¿la dirección IP del cliente está en el intervalo de red virtual o subred?
    • Área de trabajo: ¿es el área de trabajo pública o tiene un punto de conexión privado en una red virtual o subred?
    • Almacenamiento: ¿el almacenamiento permite el acceso público o restringe el acceso mediante un punto de conexión de servicio o un punto de conexión privado?
  • ¿Qué operación se realizará?
    • Azure Machine Learning controla las operaciones de creación, lectura, actualización y eliminación (CRUD) en un almacén de datos o conjunto de datos.
    • Las operaciones de archivo en los recursos de datos de Estudio requieren esta operación de RBAC: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Las llamadas de acceso a datos (como la versión preliminar o el esquema) van al almacenamiento subyacente y necesitan permisos adicionales.
  • ¿Se ejecutará esta operación en los recursos de proceso de su suscripción a Azure o en los recursos hospedados en una suscripción de Microsoft?
    • Todas las llamadas a los servicios de almacén de datos y conjunto de datos (excepto la opción "Generar perfil") usan recursos hospedados en una suscripción de Microsoft para ejecutar las operaciones.
    • Los trabajos, incluida la opción "Generar perfil" de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad de proceso necesita permiso para el recurso de almacenamiento, en lugar de la identidad del usuario que envió el trabajo.

En este diagrama se muestra el flujo general de una llamada de acceso a datos. Aquí, un usuario intenta realizar una llamada de acceso a datos a través de un área de trabajo de aprendizaje automático, sin usar un recurso de proceso.

Diagrama del flujo lógico al acceder a los datos.

Escenarios e identidades

En esta tabla se enumeran las identidades que se van a usar para escenarios específicos:

Escenario Uso del área de trabajo
Managed Service Identity (MSI)
Identidad que se va a usar
Acceso desde la UI MSI del área de trabajo
Acceso desde la UI No Identidad del usuario
Acceso desde un trabajo Sí/No MSI de proceso
Acceso desde un cuaderno Sí/No Identidad del usuario

El acceso a datos es complejo e implica muchas partes. Por ejemplo, el acceso a datos desde Estudio de Azure Machine Learning es diferente en comparación con el uso del SDK para el acceso a datos. Cuando se usa el SDK en el entorno de desarrollo local, se accede directamente a los datos en la nube. Cuando se usa Estudio, no siempre se accede directamente al almacén de datos desde el cliente. Estudio se basa en el área de trabajo para acceder a los datos en su nombre.

Sugerencia

Para acceder a datos desde fuera de Azure Machine Learning, por ejemplo, con el Explorador de Azure Storage, ese acceso probablemente se basa en la identidad del usuario. Para obtener información específica, revise la documentación de la herramienta o el servicio que usa. Para más información sobre cómo funciona Azure Machine Learning con los datos, vea Configuración de la autenticación entre Azure Machine Learning y otros servicios.

Cuenta de Azure Storage

Al usar una cuenta Azure Storage desde Estudio de Azure Machine Learning, debe agregar la identidad administrada del área de trabajo a estos roles RBAC de Azure para la cuenta de almacenamiento:

  • Lector de datos de blob
  • Si la cuenta de almacenamiento usa un punto de conexión privado para conectarse a la red virtual, debe conceder a la identidad administrada el rol Lector para el punto de conexión privado de la cuenta de almacenamiento.

Para obtener más información, vea Uso de Estudio de Azure Machine Learning en una red virtual de Azure.

En las secciones siguientes se explican las limitaciones del uso de una cuenta de Azure Storage, con el área de trabajo, en una red virtual.

Protección de la comunicación con la cuenta de Azure Storage

Para proteger la comunicación entre Azure Machine Learning y las cuentas de Azure Storage, configure el almacenamiento para conceder acceso a servicios de Azure de confianza.

Firewall de Azure Storage

Cuando una cuenta de Azure Storage está detrás de una red virtual, el firewall de almacenamiento normalmente se puede usar para permitir que el cliente se conecte directamente a través de Internet. Sin embargo, al usar Estudio, el cliente no se conecta a la cuenta de almacenamiento. Azure Machine Learning Service que realiza la solicitud se conecta a la cuenta de almacenamiento. La dirección IP del servicio no está documentada y cambia con frecuencia. La habilitación del firewall de almacenamiento no permitirá que Estudio acceda a la cuenta de almacenamiento en una configuración de red virtual.

Tipo de punto de conexión de Azure Storage

Cuando el área de trabajo usa un punto de conexión privado y la cuenta de almacenamiento también está en la red virtual, surgen unos requisitos de validación adicionales al usar Estudio:

  • Si la cuenta de almacenamiento usa un punto de conexión de servicio, el punto de conexión privado del área de trabajo y el punto de conexión del servicio de almacenamiento deben estar en la misma subred que la red virtual.
  • Si la cuenta de almacenamiento usa un punto de conexión privado, el punto de conexión privado del área de trabajo y el punto de conexión privado de almacenamiento deben estar en la misma subred que la red virtual. En este caso, pueden estar en subredes diferentes.

Azure Data Lake Storage Gen1

Si usa Azure Data Lake Storage Gen1 como almacén de datos, solo puede utilizar listas de control de acceso de estilo POSIX. Puede asignar el acceso de la identidad administrada del área de trabajo a los recursos como cualquier otra entidad de seguridad. Para obtener más información, vea Control de acceso en Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Si usa Azure Data Lake Storage Gen2, como almacén de datos, puede usar listas de control de acceso de Azure RBAC y de estilo POSIX para controlar el acceso a los datos dentro de una red virtual.

Para usar RBAC de Azure, siga los pasos descritos en esta sección del artículo Almacén de datos: Cuenta de Azure Storage. Data Lake Storage Gen2 se basa en Azure Storage, por lo que se aplican los mismos pasos al usar RBAC de Azure.

Para usar las listas de control de acceso, el acceso de la identidad administrada del área de trabajo se puede asignar como cualquier otra entidad de seguridad. Para obtener más información, vea Listas de control de acceso en archivos y directorios.

Pasos siguientes

Para más información sobre la habilitación de Estudio en una red, vea Uso de Estudio de Azure Machine Learning en una red virtual de Azure.