Compartir a través de


Escenario completo de ciencia de datos: introducción y arquitectura

Estos tutoriales presentan un escenario completo de un extremo a otro en la experiencia de ciencia de datos de Fabric. Cubren cada paso, desde

  • Ingesta de datos
  • Limpieza de datos
  • Preparación de datos

hasta

  • Entrenamiento del modelo de Machine Learning
  • Generación de conclusiones

y luego cubrir el aprovechamiento de esas conclusiones con herramientas de visualización, por ejemplo, Power BI.

Las personas que no están familiarizados con Microsoft Fabric deben visitar ¿Qué es Microsoft Fabric?.

Introducción

Normalmente, un ciclo de vida de un proyecto de ciencia de datos incluye estos pasos:

  • Descripción de las reglas de negocio
  • Adquisición de los datos
  • Exploración, limpieza, preparación y visualización de los datos
  • Entrenamiento del modelo y seguimiento del experimento
  • Evaluar el modelo y generar análisis

Los pasos a menudo continúan iterativamente. Los objetivos y los criterios de éxito de cada fase dependen de la colaboración, el uso compartido de datos y la documentación. La experiencia de ciencia de datos de Fabric implica varias características integradas nativas que permiten la colaboración sin problemas, la adquisición de datos, el uso compartido y el consumo.

Estos tutoriales le colocan en el rol de un científico de datos que debe explorar, limpiar y transformar un conjunto de datos que contenga el estado de abandono de 10 000 clientes bancarios. A continuación, cree un modelo de aprendizaje automático para predecir qué clientes bancarios probablemente abandonarán.

Realice las siguientes actividades en los tutoriales:

  1. Uso de los cuadernos de Fabric para escenarios de ciencia de datos
  2. Uso de Apache Spark para ingerir datos en un almacén de lago de datos de Fabric
  3. Cargar los datos existentes desde las tablas delta del lago de datos
  4. Uso de Apache Spark y herramientas basadas en Python para limpiar y transformar datos
  5. Creación de experimentos y ejecuciones para entrenar diferentes modelos de aprendizaje automático
  6. Uso de MLflow y la interfaz de usuario de Fabric para registrar y realizar un seguimiento de los modelos entrenados
  7. Ejecutar la puntuación a gran escala y guardar las predicciones y los resultados de inferencia en el lago de datos
  8. Uso de DirectLake para visualizar predicciones en Power BI

Arquitectura

En esta serie de tutoriales se muestra un escenario simplificado de ciencia de datos de un extremo a otro que implica:

  1. Ingesta de datos desde un origen de datos externo.
  2. Exploración y limpieza de datos.
  3. Entrenamiento y registro del modelo de Machine Learning.
  4. Puntuación por lotes y almacenamiento de predicciones.
  5. Visualización de resultados de predicción en Power BI.

Diagrama de los componentes del escenario de ciencia de datos de un extremo a otro.

Diferentes componentes del escenario de ciencia de datos

Orígenes de datos : para ingerir datos con Fabric, puede conectarse fácilmente y rápidamente a Azure Data Services, otras plataformas en la nube y recursos de datos locales. Con Fabric Notebooks, puede ingerir datos de estos recursos:

  • Almacenes de lago de datos integrados
  • Almacenamientos de datos
  • Modelos semánticos
  • Varios orígenes de datos de Apache Spark
  • Varias fuentes de datos que soportan Python

Esta serie de tutoriales se centra en la ingesta y carga de datos desde un sistema de almacén de lago de datos.

Exploración, limpieza y preparación : la experiencia de ciencia de datos de Fabric admite la limpieza, transformación, exploración y caracterización de datos. Usa experiencias de Spark integradas y herramientas basadas en Python, por ejemplo, Data Wrangler y SemPy Library. En este tutorial se muestra la exploración de datos con la seaborn biblioteca de Python y la limpieza y preparación de datos con Apache Spark.

Modelos y experimentos : con Fabric, puede entrenar, evaluar y puntuar modelos de aprendizaje automático con experimentos integrados. Para registrar e implementar los modelos y realizar un seguimiento de los experimentos, MLflow ofrece una integración sin problemas con Fabric como una manera de modelar elementos. Para crear y compartir información empresarial, Fabric ofrece otras características para la predicción del modelo a escala (PREDICT) para crear y compartir información empresarial.

Storage: Fabric estandariza en Delta Lake, lo que significa que todos los motores de Fabric pueden interactuar con el mismo conjunto de datos almacenado en un almacén de lago de datos. Con esa capa de almacenamiento, puede almacenar datos estructurados y no estructurados que admitan tanto el almacenamiento basado en archivos como el formato tabular. Puede acceder fácilmente a los conjuntos de datos y a los archivos almacenados a través de todos los elementos de experiencia de Fabric( por ejemplo, cuadernos y canalizaciones).

Exponer análisis e información : Power BI, una herramienta de inteligencia empresarial líder en el sector, puede consumir datos de lakehouse para la generación de informes y visualizaciones. En recursos de cuadernos, bibliotecas de visualización nativas de Python o Spark

  • matplotlib
  • seaborn
  • plotly
  • etcetera.

puede visualizar los datos almacenados en un almacén de lago de datos. La biblioteca SemPy también admite la visualización de datos. Esta biblioteca admite visualizaciones integradas, enriquecidas y específicas para tareas

  • Modelo de datos semántico
  • Dependencias y sus violaciones
  • Casos de uso de clasificación y regresión

Paso siguiente