¿Qué es la ciencia de datos en Microsoft Fabric?

2025-01-30

Microsoft Fabric ofrece experiencias de ciencia de datos para permitir a los usuarios completar flujos de trabajo de ciencia de datos de un extremo a otro para el enriquecimiento de datos y la información empresarial. Puede completar una amplia gama de actividades en todo el proceso de ciencia de datos, desde la exploración de datos, la preparación y la limpieza hasta la experimentación, el modelado, la puntuación del modelo y el servicio de información predictiva a los informes de BI.

Los usuarios de Microsoft Fabric pueden acceder a una página principal de Ciencia de datos. Desde allí, pueden detectar y acceder a varios recursos pertinentes. Por ejemplo, pueden crear experimentos de aprendizaje automático, modelos y cuadernos. También pueden importar cuadernos existentes en la página principal de ciencia de datos.

Es posible que sepa cómo funciona un proceso típico de ciencia de datos. Como proceso conocido, la mayoría de los proyectos de aprendizaje automático lo siguen.

En un nivel alto, el proceso implica estos pasos:

Formulación e ideación de problemas
Detección y preprocesamiento de datos
Experimentación y modelado
Enriquecer y poner en funcionamiento
Obtener información

En este artículo se describen las funcionalidades de ciencia de datos de Microsoft Fabric desde una perspectiva del proceso de ciencia de datos. Para cada paso del proceso de ciencia de datos, en este artículo se resumen las funcionalidades de Microsoft Fabric que pueden ayudar.

Formulación e ideación de problemas

Los usuarios de ciencia de datos de Microsoft Fabric trabajan en la misma plataforma que los usuarios empresariales y los analistas. El uso compartido y la colaboración de datos se vuelven más fluidas en distintos roles como resultado. Los analistas pueden compartir fácilmente informes y conjuntos de datos de Power BI con profesionales de ciencia de datos. La facilidad de colaboración entre roles en Microsoft Fabric hace que las transferencias durante la fase de formulación de problemas sean mucho más sencillas.

Detección y preprocesamiento de datos

Los usuarios de Microsoft Fabric pueden interactuar con los datos de OneLake mediante el elemento Lakehouse. Lakehouse se asocia fácilmente a un cuaderno para examinar e interactuar con los datos.

Los usuarios pueden leer fácilmente datos de una instancia de Lakehouse directamente en un dataframe de Pandas. Para la exploración, esto hace posible las lecturas de datos fluidas desde OneLake.

Hay disponible un conjunto eficaz de herramientas para canalizaciones de ingesta de datos y orquestación de datos con canalizaciones de integración de datos: una parte integrada de forma nativa de Microsoft Fabric. Las canalizaciones de datos fáciles de compilar pueden acceder a los datos y transformarlos en un formato que el aprendizaje automático pueda consumir.

Exploración de datos

Una parte importante del proceso de aprendizaje automático es comprender los datos a través de la exploración y visualización.

En función de la ubicación del almacenamiento de datos, Microsoft Fabric ofrece un conjunto de herramientas diferentes para explorar y preparar los datos para el análisis y el aprendizaje automático. Los cuadernos se convierten en una de las formas más rápidas de empezar a trabajar con la exploración de datos.

Apache Spark y Python para la preparación de datos

Microsoft Fabric ofrece funcionalidades para transformar, preparar y explorar los datos a escala. Con Spark, los usuarios pueden aprovechar las herramientas pySpark/Python, Scala y SparkR/SparklyR para el preprocesamiento de datos a escala. Las eficaces bibliotecas de visualización de código abierto pueden mejorar la experiencia de exploración de datos para ayudar a comprender mejor los datos.

Data Wrangler para una limpieza de datos sin problemas

La experiencia de Microsoft Fabric Notebook agregó una característica para usar Data Wrangler, una herramienta de código que prepara los datos y genera código de Python. Esta experiencia facilita la aceleración de tareas tediosas y mundanas — por ejemplo, la limpieza de datos — y permite establecer la repetibilidad y automatización mediante código generado. Obtenga más información sobre Data Wrangler en la sección Data Wrangler de este documento.

Experimentación y modelado de ML

Con herramientas como PySpark/Python, SparklyR/R, los cuadernos pueden controlar el entrenamiento del modelo de aprendizaje automático.

Los algoritmos y bibliotecas de ML pueden ayudar a entrenar modelos de aprendizaje automático. Las herramientas de administración de bibliotecas pueden instalar estas bibliotecas y algoritmos. Por lo tanto, los usuarios tienen la opción de aprovechar una gran variedad de bibliotecas de aprendizaje automático populares para completar el entrenamiento del modelo de ML en Microsoft Fabric.

Además, las bibliotecas populares como Scikit Learn también pueden desarrollar modelos.

Los experimentos y ejecuciones de MLflow pueden realizar un seguimiento del entrenamiento del modelo de ML. Microsoft Fabric ofrece una experiencia MLflow integrada con la que los usuarios pueden interactuar, para registrar experimentos y modelos. Obtenga más información sobre cómo usar MLflow para realizar un seguimiento de experimentos y administrar modelos en Microsoft Fabric.

SynapseML

La biblioteca de código abierto de SynapseML (anteriormente conocida como MMLSpark), que Microsoft posee y mantiene, simplifica la creación de canalizaciones de aprendizaje automático escalables de forma masiva. Como ecosistema de herramientas, expande el marco de Apache Spark en varias direcciones nuevas. SynapseML unifica varios marcos de aprendizaje automático existentes y nuevos algoritmos de Microsoft en una sola API escalable. La biblioteca SynapseML de código abierto incluye un amplio ecosistema de herramientas de APRENDIZAJE automático para el desarrollo de modelos predictivos, así como el aprovechamiento de modelos de INTELIGENCIA ARTIFICIAL entrenados previamente de los servicios de Azure AI. Obtenga más información sobre synapseML.

Enriquecer y poner en funcionamiento

Los blocs de notas pueden administrar la puntuación por lotes de modelos de aprendizaje automático con bibliotecas de código abierto para la predicción, o la función universal escalable Spark Predict de Microsoft Fabric, que admite modelos empaquetados MLflow en el registro de modelos de Microsoft Fabric.

Obtener información

En Microsoft Fabric, los valores de predicción se pueden escribir fácilmente en OneLake y consumirse sin problemas desde informes de Power BI, con el modo Direct Lake de Power BI. Esto facilita a los profesionales de la ciencia de datos compartir resultados de su trabajo con las partes interesadas y también simplifica la operacionalización.

Los cuadernos que contienen puntuación por lotes se pueden programar para ejecutarse mediante las funcionalidades de programación de cuadernos. La puntuación por lotes también se puede programar como parte de las actividades de canalización de datos o los trabajos de Spark. Power BI obtiene automáticamente las predicciones más recientes sin necesidad de cargar o actualizar los datos, gracias al modo direct lake en Microsoft Fabric.

Exploración de datos con vínculo semántico

Los científicos de datos y los analistas de negocios dedican mucho tiempo a tratar de comprender, limpiar y transformar datos antes de que puedan iniciar cualquier análisis significativo. Normalmente, los analistas de negocios trabajan con modelos semánticos y codifican su conocimiento de dominio y la lógica de negocios en medidas de Power BI. Por otro lado, los científicos de datos pueden trabajar con los mismos datos, pero normalmente en un lenguaje o entorno de código diferente.

El vínculo semántico permite a los científicos de datos establecer una conexión entre modelos semánticos de Power BI y la experiencia de ciencia de datos de Synapse en Microsoft Fabric a través de la biblioteca de Python SemPy. SemPy simplifica el análisis de datos mediante la captura y el aprovechamiento de la semántica de datos a medida que los usuarios realizan diversas transformaciones en los modelos semánticos. Al aprovechar el vínculo semántico, los científicos de datos pueden:

evite la necesidad de volver a implementar la lógica de negocios y el conocimiento de dominio en su código.
Acceso sencillo y uso de medidas de Power BI en su código
usar la semántica para impulsar nuevas experiencias, como funciones semánticas
explorar y validar las dependencias funcionales y las relaciones entre los datos

A través del uso de SemPy, las organizaciones pueden esperar ver lo siguiente:

mayor productividad y colaboración más rápida entre equipos que operan en los mismos conjuntos de datos
aumento de la colaboración cruzada entre equipos de inteligencia empresarial e inteligencia artificial
reducción de la ambigüedad y una curva de aprendizaje más sencilla al incorporarse a un nuevo modelo o conjunto de datos

Para obtener más información sobre el vínculo semántico, consulte ¿Qué es el vínculo semántico?.

Comienza con ejemplos de ciencia de datos de principio a fin, consulte Tutoriales de Ciencia de Datos
Más información sobre la preparación y limpieza de datos con Data Wrangler, consulte Data Wrangler
Más información sobre el seguimiento de experimentos, consulte experimento de aprendizaje automático.
Más información sobre la administración de modelos, consulte modelo de Machine Learning
Para más información sobre la puntuación por lotes con Predict, consulte Puntuación de modelos con PREDICT
Servir predicciones de Lakehouse a Power BI con el Modo Direct lake