Habilitación de Azure Machine Learning Studio en una Azure Virtual Network

En este artículo, aprenderá a usar Azure Machine Learning Studio en una red virtual. Studio incluye características como AutoML, el diseñador y el etiquetado de datos.

Algunas de las características de Studio están deshabilitadas de forma predeterminada en una red virtual. Para volver a habilitarlas, debe habilitar la identidad administrada para las cuentas de almacenamiento que desea usar en Studio.

Las siguientes operaciones están deshabilitadas de forma predeterminada en una red virtual:

  • Vista previa de los datos en Studio.
  • Visualización de los datos en el diseñador.
  • Implementación de un modelo en el diseñador.
  • Envío de un experimento de AutoML.
  • Inicio de un proyecto de etiquetado.

Studio admite la lectura de datos de los siguientes tipos de almacén de datos en una red virtual:

  • Cuenta de Azure Storage (blob y archivo)
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL Database

En este artículo aprenderá a:

  • Proporcionar a Studio acceso a los datos almacenados dentro de una red virtual.
  • Obtener acceso a Studio desde un recurso dentro de una red virtual.
  • Comprender cómo Studio afecta a la seguridad del almacenamiento.

Sugerencia

Este artículo forma parte de una serie sobre la protección de un flujo de trabajo de Azure Machine Learning. Consulte los demás artículos de esta serie:

Para ver un tutorial sobre cómo crear un área de trabajo seguro, consulte Tutorial: Creación de un área de trabajo seguro o Tutorial: Creación de un área de trabajo seguro mediante una plantilla.

Requisitos previos

Limitaciones

Cuenta de Azure Storage

  • Cuando la cuenta de almacenamiento está en la red virtual, hay unos requisitos de validación adicionales al usar el Estudio:

    • Si la cuenta de almacenamiento usa un punto de conexión de servicio, el punto de conexión privado del área de trabajo y el punto de conexión del servicio de almacenamiento deben estar en la misma subred que la red virtual.
    • Si la cuenta de almacenamiento usa un punto de conexión privado, el punto de conexión privado del área de trabajo y el punto de conexión privado de almacenamiento deben estar en la misma subred que la red virtual. En este caso, pueden estar en subredes diferentes.

Canalización de ejemplo del diseñador

Hay un problema conocido que consiste en que el usuario no puede ejecutar una canalización de ejemplo en la página principal del diseñador. El conjunto de datos de ejemplo que se usa en la canalización de ejemplo es el conjunto de datos global de Azure, que no puede satisfacer todo el entorno de red virtual.

Para resolver este problema, puede usar un área de trabajo pública para ejecutar la canalización de ejemplo a fin de aprender a usar el diseñador y, luego, reemplazar el conjunto de datos de ejemplo por su propio conjunto de datos en el área de trabajo de la red virtual.

Almacén datos: cuenta de Azure Storage

Siga estos pasos para habilitar el acceso a los datos almacenados en Azure Blob Storage y File Storage:

Sugerencia

El primer paso no es necesario para la cuenta de almacenamiento predeterminada del área de trabajo. Los restantes pasos son necesarios para todas las cuentas de almacenamiento que se encuentren detrás de la red virtual y que el área de trabajo usa, incluida la cuenta de almacenamiento predeterminada.

  1. Si la cuenta de almacenamiento es el almacenamiento predeterminado de su área de trabajo, omita este paso . Si no es el valor predeterminado, conceda a la identidad administrada del área de trabajo el rol de "Lector de datos de Storage Blob" para la cuenta de Azure Storage para que pueda leer datos de Blob Storage.

    Para más información, consulte el rol integrado Lector de datos de blob.

  2. Conceda a la identidad administrada del área de trabajo el rol "Lector" para los puntos de conexión privados de almacenamiento. Si el servicio de almacenamiento usa un punto de conexión privado, conceda a la identidad administrada del área de trabajo acceso de Lector al punto de conexión privado. La identidad administrada del área de trabajo de Azure AD se llama igual que el área de trabajo de Azure Machine Learning.

    Sugerencia

    La cuenta de almacenamiento puede tener varios puntos de conexión privados. Por ejemplo, una cuenta de almacenamiento puede tener un punto de conexión privado independiente para blobs, archivos e instancias de DFS (Azure Data Lake Storage Gen2). Agregue la identidad administrada a todos estos puntos de conexión.

    Para más información, consulte el rol integrado Lector.

  3. Habilite la autenticación de la identidad administrada en las cuentas de almacenamiento predeterminadas. Cada área de trabajo de Azure Machine Learning tiene dos cuentas de almacenamiento, una cuenta de almacenamiento de blobs y una cuenta de almacenamiento de archivos predeterminadas que se definen al crear el área de trabajo. También puede establecer nuevos valores predeterminados en la página de administración del almacén de datos.

    Captura de pantalla que muestra dónde se pueden encontrar los almacenes de datos predeterminados

    En la tabla siguiente se describe el motivo por el que se usa la autenticación de identidad administrada para las cuentas de almacenamiento predeterminadas del área de trabajo.

    Cuenta de almacenamiento Notas
    Almacenamiento de blobs predeterminado del área de trabajo Almacena recursos del modelo desde el diseñador. Habilite la autenticación de identidad administrada en esta cuenta de almacenamiento para implementar modelos en el diseñador. Si la autenticación de identidad administrada está deshabilitada, la identidad del usuario se usa para acceder a los datos almacenados en el blob.

    Puede visualizar y ejecutar una canalización del diseñador si usa un almacén de datos no predeterminado que se ha configurado para utilizar una identidad administrada. Sin embargo, si intenta implementar un modelo entrenado sin la identidad administrada habilitada en el almacén de datos predeterminado, se producirá un error en la implementación independientemente de que se usen otros almacenes de datos.
    Almacén de archivos predeterminado del área de trabajo Almacena los recursos de experimentos de AutoML. Habilite la autenticación de identidad administrada en esta cuenta de almacenamiento para enviar experimentos de AutoML.
  4. Configuración de almacenes de datos para usar la autenticación de la identidad administrada. Después de agregar una cuenta de Azure Storage a la red virtual con un punto de conexión de servicio o un punto de conexión privado, debe configurar el almacén de datos para usar la autenticación de identidad administrada. Esto permite que Studio tenga acceso a los datos de la cuenta de almacenamiento.

    Azure Machine Learning usa almacenes de datos para conectarse a las cuentas de almacenamiento. Al crear un almacén de datos, siga estos pasos para configurar un almacén de datos para usar la autenticación de la identidad administrada:

    1. En Studio, seleccione Almacenes de datos.

    2. Para actualizar un almacén de datos existente, seleccione el almacén de datos y después Actualizar credenciales.

      Para crear un almacén de datos, seleccione + Nuevo almacén de datos.

    3. En la configuración del almacén de datos, seleccione para Use workspace managed identity for data preview and profiling in Azure Machine Learning studio (Usar la identidad administrada del área de trabajo para obtener una vista previa y generar perfiles de los datos en el Estudio de Azure Machine Learning).

      Captura de pantalla que muestra cómo habilitar la identidad administrada del área de trabajo

    4. En la opción Redes de la cuenta de Azure Storage, agregue el tipo de recurso Microsoft.MachineLearningService/workspaces, y establezca el nombre de la instancia en el área de trabajo.

    En estos pasos se agrega la identidad administrada del área de trabajo como Lector al nuevo servicio de almacenamiento mediante Azure RBAC. El acceso de Lector permite al área de trabajo ver el recurso, pero no realizar cambios.

Almacén de datos: Azure Data Lake Storage Gen1

Si usa Azure Data Lake Storage Gen1 como almacén de datos, solo puede utilizar listas de control de acceso de estilo POSIX. Puede asignar el acceso de la identidad administrada del área de trabajo a los recursos como cualquier otra entidad de seguridad. Para obtener más información, vea Control de acceso en Azure Data Lake Storage Gen1.

Almacén de datos: Azure Data Lake Storage Gen2

Si usa Azure Data Lake Storage Gen2, como almacén de datos, puede usar listas de control de acceso de Azure RBAC y de estilo POSIX para controlar el acceso a los datos dentro de una red virtual.

Para usar Azure RBAC, siga los pasos de la sección Almacén de datos: cuenta de Azure Storage de este artículo. Data Lake Storage Gen2 se basa en Azure Storage, por lo que se aplican los mismos pasos al usar Azure RBAC.

Para usar las listas de control de acceso, el acceso de la identidad administrada del área de trabajo se puede asignar como cualquier otra entidad de seguridad. Para obtener más información, vea Listas de control de acceso en archivos y directorios.

Almacén de datos: Azure SQL Database

Para acceder a los datos almacenados en una base de datos de Azure SQL Database con una identidad administrada, debe crear un usuario independiente de SQL que se asigne a la identidad administrada. Para obtener más información sobre cómo crear un usuario desde un proveedor externo, vea Creación de usuarios independientes asignados a identidades de Azure AD.

Después de crear un usuario independiente de SQL, utilice el comando GRANT de T-SQL para concederle permisos.

Salida de componente intermedio

Cuando se usa la salida de componente intermedio del diseñador de Azure Machine Learning, se puede especificar la ubicación de salida de cualquier componente del diseñador. Úselo para almacenar conjuntos de datos intermedios en una ubicación independiente para la seguridad, el registro o la auditoría. Para especificar la salida, siga estos pasos:

  1. Seleccione el componente cuya salida quiere especificar.
  2. En el panel de configuración del componente que aparece a la derecha, seleccione Configuración de salida.
  3. Especifique el almacén de datos que quiere usar para cada salida de componente.

Asegúrese de que tiene acceso a las cuentas de almacenamiento intermedias en la red virtual. De lo contrario, se producirá un error en la canalización.

Habilite la autenticación de identidad administrada para las cuentas de almacenamiento intermedias para visualizar los datos de salida.

Acceso a Studio desde un recurso dentro de una red virtual

Si accede a Studio desde un recurso dentro de una red virtual (por ejemplo, una instancia de proceso o una máquina virtual), tendrá que permitir el tráfico de salida desde la red virtual a Studio.

Por ejemplo, si usa grupos de seguridad de red (NSG) para restringir el tráfico de salida, agregue una regla a un destino de etiqueta de servicio de AzureFrontDoor.Frontend.

Configuración de firewall

La configuración del firewall de algunos servicios de almacenamiento, como las cuentas de almacenamiento de Azure, se aplica al punto de conexión público para esa instancia del servicio específica. Normalmente, con esta configuración puede permitir o impedir el acceso desde direcciones IP concretas de la red pública de Internet. Esto no se admite cuando se usa Estudio de Azure Machine Learning, pero sí cuando se usa la CLI o el SDK de Azure Machine Learning.

Sugerencia

Estudio de Azure Machine Learning se admite cuando se usa el servicio Azure Firewall. Para obtener más información, consulte el artículo sobre Uso de áreas de trabajo detrás de un firewall.

Pasos siguientes

Este artículo forma parte de una serie sobre la protección de un flujo de trabajo de Azure Machine Learning. Consulte los demás artículos de esta serie: