Inicio rápido: Limpieza y transformación de datos interactivos con Apache Spark en Azure Machine Learning

Para controlar la limpieza y transformación de datos interactivos de cuadernos de Azure Machine Learning, la integración de Azure Machine Learning con Azure Synapse Analytics, proporciona un acceso sencillo al marco de Apache Spark. Este acceso permite la limpieza y transformación de datos interactivos de cuaderno de Azure Machine Learning.

En esta guía de inicio rápido, aprenderá a realizar la administración interactiva de datos con la informática sin servidor Spark de Azure Machine Learning, la cuenta de almacenamiento Azure Data Lake Storage (ADLS) Gen 2 y el traspaso de identidad de usuario.

Requisitos previos

Almacenamiento de las credenciales de la cuenta de almacenamiento de Azure como secretos en Azure Key Vault

Para almacenar las credenciales de la cuenta de almacenamiento de Azure como secretos en Azure Key Vault, con la interfaz de usuario del portal de Azure:

  1. Vaya hasta Azure Key Vault en el portal de Azure

  2. Seleccione Secretos en el panel izquierdo

  3. Seleccione Generar/Importar.

    Captura de pantalla que muestra la pestaña Generar o importar secretos de Azure Key Vault.

  4. En la pantalla Crear un secreto, introduzca un Nombre para el secreto que desea crear

  5. Vaya hasta el apartado Cuenta de Azure Blob Storage, en el portal de Azure, como se muestra en esta imagen:

    Captura de pantalla que muestra la pantalla de valores de la clave de acceso a Azure y la cadena de conexión.

  6. Seleccione Claves de acceso en el panel izquierdo de la página Cuenta de Azure Blob Storage

  7. Seleccione Mostrar junto a Clave 1, y luego, Copiar al portapapeles para obtener la clave de acceso a la cuenta de almacenamiento

    Nota:

    Seleccione las opciones adecuadas para copiar

    • Tokens de firma de acceso compartido (SAS) del contenedor de Azure Blob Storage
    • Credenciales de entidad de servicio de la cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2
      • tenant ID
      • id. de cliente y
      • secret

    en las respectivas interfaces de usuario mientras crea los secretos de Azure Key Vault para ellos

  8. Vuelva hasta la pantalla Crear un secreto

  9. En el cuadro de texto Valor secreto, introduzca la credencial de clave de acceso para la cuenta de almacenamiento Azure, que se copió en el portapapeles en el paso anterior

  10. Seleccione Crear

    Captura de pantalla que muestra la pantalla de creación del secreto Azure.

Sugerencia

La CLI de Azure y la biblioteca cliente de secretos de Azure Key Vault para Python también pueden crear secretos de Azure Key Vault.

Adición de asignaciones de roles en cuentas de almacenamiento de Azure

Debemos asegurarnos de que las rutas de acceso de datos de entrada y salida sean accesibles antes de iniciar la limpieza y transformación de datos interactivos. En primer lugar, para

  • la identidad del usuario que ha iniciado la sesión de blocs de notas

    o

  • una entidad de servicio

asigne roles Lector y Lector de datos de Storage Blob a la identidad de usuario del usuario que ha iniciado sesión. Sin embargo, en determinados escenarios, es posible que deseemos volver a escribir los datos modificados en la cuenta de almacenamiento de Azure. Los roles Lector y Lector de datos de Storage Blob proporcionan acceso de solo lectura a la identidad de usuario o a la entidad de servicio. Para habilitar el acceso de lectura y escritura, asigne los roles Colaborador y Colaborador de datos de Storage Blob a la identidad de usuario o a la entidad de servicio. Para asignar roles adecuados a la identidad de usuario:

  1. Abra Microsoft Azure Portal

  2. Busque y seleccione el servicio Cuentas de almacenamiento

    Captura de pantalla desplegable que muestra la búsqueda y selección del servicio de cuentas de almacenamiento en el portal de Microsoft Azure.

  3. En la página Cuentas de almacenamiento, seleccione la cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2 de la lista. Se abre una página con la Información general de la cuenta de almacenamiento

    Captura de pantalla desplegable que muestra la selección de la cuenta de almacenamiento Azure Data Lake Storage (ADLS) Gen 2 Cuenta de almacenamiento.

  4. Seleccione Control de acceso (IAM) en el panel izquierdo

  5. Seleccione Agregar asignación de roles.

    Captura de pantalla que muestra la pantalla de claves de acceso a Azure.

  6. Busque y seleccione el rol Colaborador de datos de Storage Blob

  7. Seleccione Siguiente.

    Captura de pantalla que muestra la pantalla Azure agregar asignación de roles.

  8. Seleccione Usuario, grupo o entidad de servicio

  9. Elija + Seleccionar miembros

  10. Busque la identidad de usuario siguiente: Seleccionar

  11. Seleccione la identidad de usuario de la lista para que se muestra en Miembros seleccionados

  12. Seleccione la identidad de usuario adecuada

  13. Seleccione Siguiente.

    Captura de pantalla que muestra la pantalla Azure agregar asignación de roles Pestaña Miembros.

  14. Seleccione Revisar y asignar

    Captura de pantalla que muestra la pestaña de revisión y asignación de la pantalla de adición de asignación de roles de Azure.

  15. Repita los pasos del 2 al 13 para la asignación de rol de Colaborador

Una vez que la identidad del usuario tiene asignados los roles adecuados, los datos de la cuenta de almacenamiento de Azure deben ser accesibles.

Nota:

Si un grupo Synapse Spark adjunto apunta a un grupo Synapse Spark, en un área de trabajo Azure Synapse, que tiene una red virtual administrada asociada, debe configurar un punto de conexión privado administrado a una cuenta de almacenamiento para garantizar el acceso a los datos.

Garantizar el acceso a los recursos para trabajos de Spark

Para acceder a los datos y a otros recursos, los trabajos de Spark pueden usar una identidad administrada o una identidad de usuario. En la siguiente tabla se resumen los diferentes mecanismos de acceso a los recursos mientras se utiliza el proceso sin servidor Spark de Azure Machine Learning y el grupo Spark de Synapse adjunto.

Grupo de Spark Identidades admitidas Identidad predeterminada
Proceso de Spark sin servidor Identidad de usuario, identidad administrada asignada por el usuario asociada al área de trabajo Identidad del usuario
Grupo de Spark de Synapse asociado Identidad de usuario, identidad administrada asignada por el usuario asociada al grupo de Spark de Synapse conectado, identidad administrada asignada por el sistema del grupo de Spark de Synapse asociado Identidad administrada asignada por el sistema del grupo de Spark de Synapse asociado

Si la CLI o el código del SDK define una opción para utilizar la identidad administrada, el proceso de Spark administrado sin servidor de Azure Machine Learning se basa en una identidad administrada asignada por el usuario asociada al área de trabajo. Puede adjuntar una identidad administrada asignada por el usuario a un área de trabajo de Azure Machine Learning existente con Azure Machine Learning CLI v2 o con ARMClient.

Pasos siguientes