Escenario completo de ciencia de datos: introducción y arquitectura

2025-05-01

Estos tutoriales presentan un escenario completo de un extremo a otro en la experiencia de ciencia de datos de Fabric. Cubren cada paso, desde

Ingesta de datos
Limpieza de datos
Preparación de datos

hasta

Entrenamiento del modelo de Machine Learning
Generación de conclusiones

y luego cubrir el aprovechamiento de esas conclusiones con herramientas de visualización, por ejemplo, Power BI.

Las personas que no están familiarizados con Microsoft Fabric deben visitar ¿Qué es Microsoft Fabric?.

Introducción

Normalmente, un ciclo de vida de un proyecto de ciencia de datos incluye estos pasos:

Descripción de las reglas de negocio
Adquisición de los datos
Exploración, limpieza, preparación y visualización de los datos
Entrenamiento del modelo y seguimiento del experimento
Evaluar el modelo y generar análisis

Los pasos a menudo continúan iterativamente. Los objetivos y los criterios de éxito de cada fase dependen de la colaboración, el uso compartido de datos y la documentación. La experiencia de ciencia de datos de Fabric implica varias características integradas nativas que permiten la colaboración sin problemas, la adquisición de datos, el uso compartido y el consumo.

Estos tutoriales le colocan en el rol de un científico de datos que debe explorar, limpiar y transformar un conjunto de datos que contenga el estado de abandono de 10 000 clientes bancarios. A continuación, cree un modelo de aprendizaje automático para predecir qué clientes bancarios probablemente abandonarán.

Realice las siguientes actividades en los tutoriales:

Uso de los cuadernos de Fabric para escenarios de ciencia de datos
Uso de Apache Spark para ingerir datos en un almacén de lago de datos de Fabric
Cargar los datos existentes desde las tablas delta del lago de datos
Uso de Apache Spark y herramientas basadas en Python para limpiar y transformar datos
Creación de experimentos y ejecuciones para entrenar diferentes modelos de aprendizaje automático
Uso de MLflow y la interfaz de usuario de Fabric para registrar y realizar un seguimiento de los modelos entrenados
Ejecutar la puntuación a gran escala y guardar las predicciones y los resultados de inferencia en el lago de datos
Uso de DirectLake para visualizar predicciones en Power BI

Arquitectura

En esta serie de tutoriales se muestra un escenario simplificado de ciencia de datos de un extremo a otro que implica:

Diferentes componentes del escenario de ciencia de datos

Orígenes de datos : para ingerir datos con Fabric, puede conectarse fácilmente y rápidamente a Azure Data Services, otras plataformas en la nube y recursos de datos locales. Con Fabric Notebooks, puede ingerir datos de estos recursos:

Almacenes de lago de datos integrados
Almacenamientos de datos
Modelos semánticos
Varios orígenes de datos de Apache Spark
Varias fuentes de datos que soportan Python

Esta serie de tutoriales se centra en la ingesta y carga de datos desde un sistema de almacén de lago de datos.

Exploración, limpieza y preparación : la experiencia de ciencia de datos de Fabric admite la limpieza, transformación, exploración y caracterización de datos. Usa experiencias de Spark integradas y herramientas basadas en Python, por ejemplo, Data Wrangler y SemPy Library. En este tutorial se muestra la exploración de datos con la seaborn biblioteca de Python y la limpieza y preparación de datos con Apache Spark.

Modelos y experimentos : con Fabric, puede entrenar, evaluar y puntuar modelos de aprendizaje automático con experimentos integrados. Para registrar e implementar los modelos y realizar un seguimiento de los experimentos, MLflow ofrece una integración sin problemas con Fabric como una manera de modelar elementos. Para crear y compartir información empresarial, Fabric ofrece otras características para la predicción del modelo a escala (PREDICT) para crear y compartir información empresarial.

Storage: Fabric estandariza en Delta Lake, lo que significa que todos los motores de Fabric pueden interactuar con el mismo conjunto de datos almacenado en un almacén de lago de datos. Con esa capa de almacenamiento, puede almacenar datos estructurados y no estructurados que admitan tanto el almacenamiento basado en archivos como el formato tabular. Puede acceder fácilmente a los conjuntos de datos y a los archivos almacenados a través de todos los elementos de experiencia de Fabric( por ejemplo, cuadernos y canalizaciones).

Exponer análisis e información : Power BI, una herramienta de inteligencia empresarial líder en el sector, puede consumir datos de lakehouse para la generación de informes y visualizaciones. En recursos de cuadernos, bibliotecas de visualización nativas de Python o Spark

matplotlib
seaborn
plotly
etcetera.

puede visualizar los datos almacenados en un almacén de lago de datos. La biblioteca SemPy también admite la visualización de datos. Esta biblioteca admite visualizaciones integradas, enriquecidas y específicas para tareas

Modelo de datos semántico
Dependencias y sus violaciones
Casos de uso de clasificación y regresión

Paso siguiente

Preparar el sistema para el tutorial de ciencia de datos

Compartir a través de

Escenario completo de ciencia de datos: introducción y arquitectura

Introducción

Arquitectura

Diferentes componentes del escenario de ciencia de datos

Paso siguiente

Comentarios

Recursos adicionales