Ejercicio: Uso de las transformaciones de proceso en Azure Data Factory

8 minutos

En algunos casos, es posible que la transformación sin código a escala no cumpla sus requisitos. Puede usar Azure Data Factory para ingerir datos sin procesar recopilados de diferentes orígenes y trabajar con una serie de recursos de proceso, como Azure Databricks, Azure HDInsight u otros recursos de proceso para reestructurarlos según sus requisitos.

ADF y Azure Databricks

Por ejemplo, la integración de Azure Databricks con ADF permite agregar cuadernos de Databricks dentro de una canalización de ADF para aprovechar las funcionalidades de transformación de datos y análisis de Databricks. Puede agregar un cuaderno dentro del flujo de trabajo de datos para estructurar y transformar los datos sin procesar cargados en ADF desde orígenes diferentes. Una vez que los datos se transforman mediante Databricks, puede cargarlos en cualquier origen de almacenamiento de datos.

La ingesta y la transformación de datos mediante las funcionalidades colectivas de ADF y Azure Databricks básicamente implican los pasos siguientes:

Creación de una cuenta de Almacenamiento de Azure : el primer paso es crear una cuenta de Azure Storage para almacenar los datos ingeridos y transformados.
Crear un Azure Data Factory - Una vez que tenga su cuenta de almacenamiento configurada, debe crear su Azure Data Factory usando el Azure Portal.
Creación de una canalización de flujo de trabajo de datos: una vez que el almacenamiento y ADF estén en funcionamiento, empiece por crear una canalización, donde el primer paso es copiar datos del origen mediante la actividad de copia de ADF. La actividad de copia permite copiar datos de diferentes orígenes locales y en la nube.
Agregar el cuaderno de Databricks a la canalización: cuando haya copiado los datos a ADF, deberá agregar el cuaderno de Databricks a la canalización después de la actividad de copia. Este cuaderno puede contener sintaxis y código para transformar y limpiar datos sin procesar según sea necesario.
Realizar análisis de datos : ahora que los datos se limpian y estructuran en el formato necesario, puede usar cuadernos de Databricks para entrenarlos o analizarlos para generar resultados necesarios.

Ha aprendido qué es Azure Data Factory y cómo su integración con Azure Databricks le ayuda a cargar y transformar los datos. Ahora se creará un flujo de trabajo de datos de ejemplo de un extremo a otro.

Integración de los cuadernos de Azure Databricks con la canalización de Azure Data Factory

Hay un número de tareas que necesitan realizarse para integrar los cuadernos de Azure Databricks en el flujo de trabajo de Azure Data Factory de la siguiente manera:

Genere un token de acceso de Databricks.
Generación de un cuaderno de Databricks
Crear servicios vinculados
Crear una canalización que utilice la actividad de cuaderno de Databricks.
Desencadenar una ejecución de canalización.

Nota:

En los pasos siguientes se supone que ya hay un clúster de Azure Databricks ya aprovisionado.

Tarea 1: Generar un token de acceso de Databricks.

En el portal de Azure, haga clic en Grupos de recursos y luego haga clic en awrgstudxx, y después haga clic en awdbwsstudxx, donde xx son las iniciales de tu nombre.
Haga clic en Iniciar área de trabajo.
Haga clic en la Configuración del usuario en la esquina inferior izquierda del área de trabajo de Databricks.
Haga clic en Configuración de usuario.
Vaya a la pestaña Tokens de acceso y haga clic en el botón Generar nuevo token .
Escriba una descripción en el comentario "For ADF Integration" (Para la integración de ADF) y establezca el período de duración de 10 días y haga clic en Generar.
Copie el token generado y almacene en el Bloc de notas y, a continuación, haga clic en Listo.

Tarea 2: Generación de un cuaderno de Databricks

A la izquierda de la pantalla, haga clic en el icono Área de trabajo y, a continuación, haga clic en la flecha situada junto a la palabra Área de trabajo, haga clic en Crear y, a continuación, haga clic en Carpeta. Asigne un nombre adftutorial a la carpeta y haga clic en Crear carpeta. La carpeta adftutorial aparece en el área de trabajo.
Haga clic en la flecha desplegable situada junto a adftutorial y, a continuación, haga clic en Crear y, a continuación, haga clic en Bloc de notas.
En el cuadro de diálogo Crear cuaderno, escriba el nombre de mynotebook y asegúrese de que el lenguaje indica Python y, a continuación, haga clic en Crear. Aparece el bloc de notas con el título de mynotebook/

En el cuaderno "mynotebook" recién creado, agregue el código siguiente:

# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
dbutils.widgets.get("input")
y = getArgument("input")
print ("Param -\'input':")
print (y)

Nota:

que la ruta de acceso del cuaderno es /adftutorial/mynotebook

Tarea 3: Crear servicios vinculados

En Microsoft Edge, haga clic en la pestaña del portal En Azure Portal y vuelva a Azure Data Factory y haga clic en Abrir Azure Data Factory Studio.
En el lado izquierdo de la pantalla, haga clic en el icono Administrar .
En Conexiones, haga clic en Servicios vinculados.
En el servicio vinculado, en la parte superior de la pantalla, haga clic en + Nuevo,
Haga clic en la pestaña Proceso , haga clic en Azure Databricks y, a continuación, haga clic en Continuar.
En la pantalla Nuevo servicio vinculado (Azure Databricks), rellene los detalles siguientes y haga clic en Finalizar.
- Nombre: xx_dbls, donde xx son sus iniciales
- Área de trabajo de Databricks: awdbwsstudxx, donde xx son sus iniciales
- Selección del clúster: usar existente
- Dominio o región: debe rellenarse
- Token de acceso: copie el token de acceso desde el Bloc de notas y péguelo en este campo.
- Elija entre el clúster existente: awdbclstudxx, donde xx son sus iniciales.
- Deje otras opciones en su configuración predeterminada.
Nota:

Al hacer clic en finalizar, se le devuelve a la pantalla de Autor y Monitor donde se ha creado el xx_dbls, junto con los otros servicios vinculados creados en el ejercicio anterior.

Tarea 4: Cree una canalización que utiliza la actividad Notebook de Databricks.

A la izquierda de la pantalla, haga clic en el icono Autor y, a continuación, haga clic en Pipeline. Se abrirá una pestaña con un diseñador de canalizaciones.
En la parte inferior del diseñador de canalizaciones, haga clic en la pestaña parámetros y, a continuación, haga clic en + Nuevo.
Cree un parámetro con el nombre nombre y el tipo cadena.
En el menú Actividades, despliegue Databricks.
Haga clic y arrastre Notebook sobre el lienzo.
En las propiedades de la ventana Notebook1 de la parte inferior, complete los pasos siguientes:
- Cambie a la pestaña Azure Databricks .
- Seleccione xx_dbls que creó en el procedimiento anterior.
- Cambie a la pestaña Configuración y introduzca /adftutorial/mynotebook en la ruta de acceso del Notebook.
- Expanda Parámetros base y, a continuación, haga clic en + Nuevo.
- Cree un parámetro con el nombre de entrada, con un valor de @pipeline().parameters.name.
En Notebook1, haga clic en Validar, junto al botón Guardar como plantilla. Aparece una ventana a la derecha de la pantalla que indica "La canalización se ha validado. No se encontraron errores. Haga clic en el >> para cerrar la ventana.
Haga clic en Publicar todo para publicar el servicio vinculado y la canalización.

Nota:

Aparecerá un mensaje para indicar que la implementación se ha realizado correctamente.

Tarea 5: Desencadene una ejecución de canalización.

En Cuaderno1, haga clic en Agregar desencadenador y, después, en Desencadenar ahora junto al botón Depurar.
El cuadro de diálogo Ejecución de canalización solicita el parámetro name. Use /path/filename como parámetro aquí. Haga clic en Finalizar Aparece un círculo rojo encima de la actividad Cuaderno1 en el lienzo.

Tarea 6: Supervisión de la canalización

A la izquierda de la pantalla, haga clic en la pestaña Supervisar. Confirme que ve una ejecución de canalización. Se tarda aproximadamente entre 5 y 8 minutos crear un clúster de trabajo de Databricks, donde se ejecuta el cuaderno.
Seleccione Actualizar periódicamente para comprobar el estado de la ejecución de la canalización.
Para ver las ejecuciones de actividad asociadas con la ejecución de esta canalización, seleccione Ver ejecuciones de actividad de la columna Acciones.

Tarea 7: Comprobación de la salida

En Microsoft Edge, haga clic en la pestaña mynotebook - Databricks
En el área de trabajo de Azure Databricks , haga clic en Clústeres y puede ver el estado del trabajo como ejecución pendiente, en ejecución o finalizado.
Haga clic en el clúster awdbclstudxx y, a continuación, haga clic en el registro de eventos para ver las actividades.

Nota:

Debería ver un tipo de evento Iniciando con la hora en que desencadenó la ejecución de canalización.