¿Qué es la ciencia de datos en Microsoft Fabric?

Microsoft Fabric ofrece experiencias de ciencia de datos para permitir a los usuarios completar flujos de trabajo de un extremo a otro para el enriquecimiento de datos y la información empresarial. Puede completar una amplia gama de actividades en todo el proceso de ciencia de datos: exploración, preparación y limpieza de los datos, experimentación, modelado, puntuación del modelo y transmisión de información predictiva a los informes de BI.

Los usuarios de Microsoft Fabric pueden acceder a una página principal del ciencia de datos. Desde allí, pueden detectar varios recursos relevantes y acceder a ellos. Por ejemplo, pueden crear experimentos de aprendizaje automático, modelos y cuadernos. También pueden importar cuadernos existentes en la página principal de ciencia de datos.

Captura de pantalla de la página inicial de ciencia de datos.

Quizá ya sepa cómo funciona un proceso típico de ciencia de datos. Es un proceso conocido que siguen la mayoría de los proyectos de aprendizaje automático.

A grandes rasgos, implica estos pasos:

  • Formular y conceptualizar el problema
  • Descubrir información en los datos y realizar el preprocesamiento
  • Experimentar y modelar
  • Enriquecer y operacionalizar
  • Obtener información

Diagrama del proceso de ciencia de datos.

En este artículo se describen las funcionalidades de Microsoft Fabric desde una perspectiva de ciencia de datos. Resumimos las funcionalidades de Microsoft Fabric que pueden ayudarte en cada paso del proceso de ciencia de datos.

Formular y conceptualizar el problema

Los usuarios de ciencia de datos en Microsoft Fabric trabajan en la misma plataforma que los usuarios empresariales y los analistas. Como resultado, el uso compartido y la colaboración de datos se vuelven más transparentes en todos los roles. Los analistas pueden compartir fácilmente informes y conjuntos de datos de Power BI con profesionales de ciencia de datos. La facilidad de colaboración entre roles de Microsoft Fabric hace que las entregas durante la fase de formulación del problema sean mucho más fáciles.

Descubrir información en los datos y realizar el preprocesamiento

Los usuarios de Microsoft Fabric pueden interactuar con los datos de OneLake mediante el elemento Lakehouse. Lakehouse se asocia fácilmente a un cuaderno para examinar e interactuar con los datos.

Los usuarios pueden leer fácilmente datos de una instancia de Lakehouse directamente en un dataframe de Pandas. En términos de exploración, esto permite leer datos sin problemas en OneLake.

Existe un potente conjunto de herramientas para la ingesta de datos y las canalizaciones de orquestación de datos con canalizaciones de integración de datos, una parte integrada de forma nativa en Microsoft Fabric. Las canalizaciones de datos (que son fáciles de compilar) pueden acceder a los datos y transformarlos en un formato que el aprendizaje automático pueda usar.

Exploración de datos

Una parte importante del proceso de aprendizaje automático es comprender los datos mediante la exploración y las visualizaciones.

En función de dónde se almacenen los datos, Microsoft Fabric ofrece un conjunto diferente de herramientas para explorarlos y prepararlos para el análisis y el aprendizaje automático. Los cuadernos son una de las formas más rápidas de empezar con la exploración de datos.

Apache Spark y Python para la preparación de datos

Microsoft Fabric ofrece funcionalidades para transformar, preparar y explorar los datos a escala. Con Spark, los usuarios pueden aprovechar las herramientas pySpark/Python, Scala y SparkR/SparklyR para el preprocesamiento de datos a escala. Las eficaces bibliotecas de visualización de código abierto pueden mejorar la experiencia de exploración de datos para ayudar a comprender mejor los datos.

Data Wrangler para una limpieza de datos sin problemas

La experiencia de cuadernos de Microsoft Fabric agregó una característica para usar Data Wrangler, una herramienta de código que prepara los datos y genera código de Python. Esta experiencia facilita la aceleración de tareas tediosas y mundanas (como la limpieza de datos) y fomenta la repetición y la automatización mediante el código generado. Obtenga más información sobre Data Wrangler en la sección Data Wrangler de este documento.

Experimentar y modelar en ML

Con herramientas como PySpark/Python, SparklyR/R, los cuadernos pueden controlar el entrenamiento del modelo de aprendizaje automático.

Los algoritmos y bibliotecas de ML pueden ayudar a entrenar modelos de aprendizaje automático. Las herramientas de administración de bibliotecas pueden instalar estas bibliotecas y algoritmos. Por lo tanto, los usuarios tienen la opción de aprovechar una gran variedad de bibliotecas de aprendizaje automático populares para completar el entrenamiento del modelo de ML en Microsoft Fabric.

Además, las bibliotecas populares como Scikit Learn también permiten desarrollar modelos.

Los experimentos y ejecuciones de MLflow pueden realizar un seguimiento del entrenamiento del modelo de ML. Microsoft Fabric ofrece una experiencia MLflow integrada con la que los usuarios pueden interactuar, para registrar experimentos y modelos. Obtenga más información sobre cómo usar MLflow para realizar un seguimiento de experimentos y administrar modelos en Microsoft Fabric.

SynapseML

La biblioteca de código abierto SynapseML (anteriormente conocida como MMLSpark), que Microsoft posee y mantiene, simplifica la creación de canalizaciones de aprendizaje automático escalables de forma masiva. Como ecosistema de herramientas, amplía el marco de Apache Spark de varias formas. SynapseML unifica varios marcos de aprendizaje automático existentes y nuevos algoritmos de Microsoft en una única API escalable. La biblioteca SynapseML de código abierto incluye un amplio ecosistema de herramientas de aprendizaje automático para el desarrollo de modelos predictivos, así como el aprovechamiento de modelos de inteligencia artificial previamente entrenados de servicios de Azure AI. Obtenga más información sobre SynapseML.

Enriquecer y operacionalizar

Los blocs de notas pueden administrar la puntuación por lotes de modelos de aprendizaje automático con bibliotecas de código abierto para la predicción, o la función universal escalable Spark Predict de Microsoft Fabric, que admite modelos empaquetados MLflow en el registro de modelos de Microsoft Fabric.

Obtener información

En Microsoft Fabric, los valores de predicción se pueden escribir fácilmente en OneLake y consumirse sin problemas desde informes de Power BI, con el modo de Direct Lake de Power BI. Esto facilita a los profesionales de la ciencia de datos compartir resultados de su trabajo con las partes interesadas y también simplifica la operacionalización.

Los cuadernos que contienen puntuación por lotes se pueden programar para ejecutarse mediante las funcionalidades de programación de cuadernos. La puntuación por lotes también se puede programar como parte de las actividades de canalización de datos o los trabajos de Spark. Power BI obtiene automáticamente las predicciones más recientes sin necesidad de cargar o actualizar los datos, gracias al modo Direct Lake en Microsoft Fabric.

Importante

Esta característica se encuentra en versión preliminar.

Los científicos de datos y los analistas de negocios dedican mucho tiempo a tratar de comprender, limpiar y transformar los datos antes de que puedan iniciar cualquier análisis significativo. Normalmente, los analistas de negocios trabajan con modelos semánticos y codifican su conocimiento de dominio y la lógica de negocios en medidas de Power BI. Por otro lado, los científicos de datos pueden trabajar con los mismos datos, pero normalmente en un lenguaje o entorno de código diferente.

El vínculo semántico (versión preliminar) permite a los científicos de datos establecer una conexión entre modelos semánticos de Power BI y la experiencia de ciencia de datos de Synapse en Microsoft Fabric a través de la biblioteca de Python SemPy. SemPy simplifica el análisis de datos mediante la captura y el aprovechamiento de la semántica de datos a medida que los usuarios realizan diversas transformaciones en sus modelos semánticos. Al aprovechar el vínculo semántico, los científicos de datos pueden realizar lo siguiente:

  • evitar la necesidad de volver a implementar la lógica de negocios y el conocimiento de dominio en su código
  • acceder de manera sencilla y usar medidas de Power BI en el código
  • usar la semántica para impulsar nuevas experiencias, como las funciones semánticas
  • explorar y validar las dependencias funcionales y las relaciones entre los datos

A través del uso de SemPy, las organizaciones pueden esperar ver lo siguiente:

  • una mayor productividad y una colaboración más rápida entre equipos que operan en los mismos conjuntos de datos
  • un aumento de la colaboración cruzada entre equipos de inteligencia empresarial e inteligencia artificial
  • una reducción de la ambigüedad y una curva de aprendizaje más sencilla al incorporarse a un nuevo modelo o conjunto de datos

Para obtener más información sobre el vínculo semántico, consulte ¿Qué es un vínculo semántico? (versión preliminar).