Compartir vía


Escenario de un extremo a otro de ciencia de datos: introducción y arquitectura

Este conjunto de tutoriales muestra un escenario de un extremo a otro de ejemplo en la experiencia de ciencia de datos de Fabric. Implementará cada paso desde la ingesta, limpieza y preparación de datos, hasta el entrenamiento de modelos de aprendizaje automático y la generación de información, y luego consumirá esa información utilizando herramientas de visualización como Power BI.

Si no está familiarizado con Microsoft Fabric, consulte ¿Qué es Microsoft Fabric?.

Introducción

El ciclo de vida de un proyecto de ciencia de datos suele incluir (a menudo, iterativamente) los pasos siguientes:

  • Conocimiento del negocio
  • Adquisición de datos
  • Exploración, limpieza, preparación y visualización de datos
  • Entrenamiento de modelos y seguimiento de experimentos
  • Puntuación de modelos y generación de información.

Los objetivos y los criterios de éxito de cada fase dependen de la colaboración, el uso compartido de datos y la documentación. La experiencia de ciencia de datos de Fabric consta de varias características integradas nativas que permiten la colaboración, la adquisición de datos, el uso compartido y el consumo de una manera fluida.

En estos tutoriales, adoptará el rol de un científico de datos al que se le ha encomendado la tarea de explorar, limpiar y transformar un conjunto de datos que contiene el estado de renovación de 10 000 clientes en un banco. A continuación, compile un modelo de Machine Learning para predecir qué clientes bancarios es probable que se vayan.

Aprenderá a realizar las actividades siguientes:

  1. Usar los cuadernos de Fabric para escenarios de ciencia de datos.
  2. Ingerir datos en un lago de datos de Fabric mediante Apache Spark.
  3. Cargar los datos existentes desde las tablas delta del lago de datos.
  4. Limpie y transforme los datos mediante herramientas basadas en Python y Apache Spark.
  5. Cree experimentos y ejecuciones para entrenar diferentes modelos de Machine Learning.
  6. Registrar y realizar un seguimiento de los modelos entrenados mediante MLflow y la interfaz de usuario de Fabric.
  7. Ejecutar la puntuación a gran escala y guardar las predicciones y los resultados de inferencia en el lago de datos.
  8. Visualizar predicciones en Power BI mediante DirectLake.

Arquitectura

En esta serie de tutoriales, presentamos un escenario simplificado de ciencia de datos de un extremo a otro que implica:

  1. Ingestión de datos de un origen de datos externo.
  2. Exploración y limpieza de datos
  3. Entrenar y registrar modelos de Machine Learning
  4. Realizar la puntuación por lotes y guardar predicciones
  5. Visualizar resultados de predicción en Power BI

Diagram of the Data science end-to-end scenario components.

Distintos componentes del escenario de ciencia de datos

Orígenes de datos: Fabric facilita y agiliza la conexión a Azure Data Services, otras plataformas en la nube y orígenes de datos locales desde los que ingerir datos. Con Fabric Notebook, puede ingerir datos de Lakehouse integrados, Data Warehouse, modelos semánticos y varios orígenes de datos personalizados compatibles con Apache Spark y Python. Esta serie de tutoriales se centra en la ingesta y carga de datos desde un lago de datos.

Exploración, limpieza y preparación: la experiencia de ciencia de datos en Fabric admite la limpieza, transformación, exploración y caracterización de datos mediante experiencias integradas en Spark, así como herramientas basadas en Python, como las bibliotecas Data Wrangler y SemPy. En este tutorial se mostrará la exploración de datos mediante la biblioteca seaborn de Python y la limpieza y preparación de datos mediante Apache Spark.

Modelos y experimentos: Fabric le permite entrenar, evaluar y puntuar modelos de Machine Learning utilizando elementos de experimentos y modelos incorporados con una integración perfecta con MLflow para el seguimiento de experimentos y el registro/implantación de modelos. Fabric también incluye características para la predicción del modelo a gran escala (PREDICT) para obtener y compartir información empresarial.

Almacenamiento: Fabric estandariza en Delta Lake, lo que significa que todos los motores de Fabric pueden interactuar con el mismo conjunto de datos almacenado en un lago de datos. Esta capa de almacenamiento permite almacenar datos estructurados y no estructurados que admiten el almacenamiento basado en archivos y el formato tabular. Se puede acceder fácilmente a los conjuntos de datos y los archivos almacenados a través de todos los elementos de la experiencia Fabric, como cuadernos y canalizaciones.

Exposición de análisis e información: Power BI, una herramienta de inteligencia empresarial líder del sector, puede consumir datos de un lago de datos, para la creación de informes y la visualización. Los datos persistentes en el lago de datos también se pueden visualizar en cuadernos mediante bibliotecas de visualización nativas de Spark o Python, como matplotlib, seaborn, plotly, y más. Los datos también se pueden visualizar mediante la biblioteca SemPy que admite visualizaciones enriquecidas y específicas de tareas integradas para el modelo de datos semántico, para dependencias y sus infracciones, y para casos de uso de clasificación y regresión.

Paso siguiente