Eventos
31 mar, 23 - 2 abr, 23
Evento de aprendizaje de Fabric, Power BI y SQL más grande. 31 de marzo – 2 de abril. Use el código FABINSIDER para ahorrar $400.
Regístrate hoyEste explorador ya no se admite.
Actualice a Microsoft Edge para aprovechar las características y actualizaciones de seguridad más recientes, y disponer de soporte técnico.
Microsoft Fabric ofrece experiencias de ciencia de datos para permitir a los usuarios completar flujos de trabajo de ciencia de datos de un extremo a otro para el enriquecimiento de datos y la información empresarial. Puede completar una amplia gama de actividades en todo el proceso de ciencia de datos, desde la exploración de datos, la preparación y la limpieza hasta la experimentación, el modelado, la puntuación del modelo y el servicio de información predictiva a los informes de BI.
Los usuarios de Microsoft Fabric pueden acceder a una página principal de Ciencia de datos. Desde allí, pueden detectar y acceder a varios recursos pertinentes. Por ejemplo, pueden crear experimentos de aprendizaje automático, modelos y cuadernos. También pueden importar cuadernos existentes en la página principal de ciencia de datos.
Es posible que sepa cómo funciona un proceso típico de ciencia de datos. Como proceso conocido, la mayoría de los proyectos de aprendizaje automático lo siguen.
En un nivel alto, el proceso implica estos pasos:
En este artículo se describen las funcionalidades de ciencia de datos de Microsoft Fabric desde una perspectiva del proceso de ciencia de datos. Para cada paso del proceso de ciencia de datos, en este artículo se resumen las funcionalidades de Microsoft Fabric que pueden ayudar.
Los usuarios de ciencia de datos de Microsoft Fabric trabajan en la misma plataforma que los usuarios empresariales y los analistas. El uso compartido y la colaboración de datos se vuelven más fluidas en distintos roles como resultado. Los analistas pueden compartir fácilmente informes y conjuntos de datos de Power BI con profesionales de ciencia de datos. La facilidad de colaboración entre roles en Microsoft Fabric hace que las transferencias durante la fase de formulación de problemas sean mucho más sencillas.
Los usuarios de Microsoft Fabric pueden interactuar con los datos de OneLake mediante el elemento Lakehouse. Lakehouse se asocia fácilmente a un cuaderno para examinar e interactuar con los datos.
Los usuarios pueden leer fácilmente datos de una instancia de Lakehouse directamente en un dataframe de Pandas. Para la exploración, esto hace posible las lecturas de datos fluidas desde OneLake.
Hay disponible un conjunto eficaz de herramientas para canalizaciones de ingesta de datos y orquestación de datos con canalizaciones de integración de datos: una parte integrada de forma nativa de Microsoft Fabric. Las canalizaciones de datos fáciles de compilar pueden acceder a los datos y transformarlos en un formato que el aprendizaje automático pueda consumir.
Una parte importante del proceso de aprendizaje automático es comprender los datos a través de la exploración y visualización.
En función de la ubicación del almacenamiento de datos, Microsoft Fabric ofrece un conjunto de herramientas diferentes para explorar y preparar los datos para el análisis y el aprendizaje automático. Los cuadernos se convierten en una de las formas más rápidas de empezar a trabajar con la exploración de datos.
Microsoft Fabric ofrece funcionalidades para transformar, preparar y explorar los datos a escala. Con Spark, los usuarios pueden aprovechar las herramientas pySpark/Python, Scala y SparkR/SparklyR para el preprocesamiento de datos a escala. Las eficaces bibliotecas de visualización de código abierto pueden mejorar la experiencia de exploración de datos para ayudar a comprender mejor los datos.
La experiencia de Microsoft Fabric Notebook agregó una característica para usar Data Wrangler, una herramienta de código que prepara los datos y genera código de Python. Esta experiencia facilita la aceleración de tareas tediosas y mundanas — por ejemplo, la limpieza de datos — y permite establecer la repetibilidad y automatización mediante código generado. Obtenga más información sobre Data Wrangler en la sección Data Wrangler de este documento.
Con herramientas como PySpark/Python, SparklyR/R, los cuadernos pueden controlar el entrenamiento del modelo de aprendizaje automático.
Los algoritmos y bibliotecas de ML pueden ayudar a entrenar modelos de aprendizaje automático. Las herramientas de administración de bibliotecas pueden instalar estas bibliotecas y algoritmos. Por lo tanto, los usuarios tienen la opción de aprovechar una gran variedad de bibliotecas de aprendizaje automático populares para completar el entrenamiento del modelo de ML en Microsoft Fabric.
Además, las bibliotecas populares como Scikit Learn también pueden desarrollar modelos.
Los experimentos y ejecuciones de MLflow pueden realizar un seguimiento del entrenamiento del modelo de ML. Microsoft Fabric ofrece una experiencia MLflow integrada con la que los usuarios pueden interactuar, para registrar experimentos y modelos. Obtenga más información sobre cómo usar MLflow para realizar un seguimiento de experimentos y administrar modelos en Microsoft Fabric.
La biblioteca de código abierto de SynapseML (anteriormente conocida como MMLSpark), que Microsoft posee y mantiene, simplifica la creación de canalizaciones de aprendizaje automático escalables de forma masiva. Como ecosistema de herramientas, expande el marco de Apache Spark en varias direcciones nuevas. SynapseML unifica varios marcos de aprendizaje automático existentes y nuevos algoritmos de Microsoft en una sola API escalable. La biblioteca SynapseML de código abierto incluye un amplio ecosistema de herramientas de APRENDIZAJE automático para el desarrollo de modelos predictivos, así como el aprovechamiento de modelos de INTELIGENCIA ARTIFICIAL entrenados previamente de los servicios de Azure AI. Obtenga más información sobre synapseML.
Los blocs de notas pueden administrar la puntuación por lotes de modelos de aprendizaje automático con bibliotecas de código abierto para la predicción, o la función universal escalable Spark Predict de Microsoft Fabric, que admite modelos empaquetados MLflow en el registro de modelos de Microsoft Fabric.
En Microsoft Fabric, los valores de predicción se pueden escribir fácilmente en OneLake y consumirse sin problemas desde informes de Power BI, con el modo Direct Lake de Power BI. Esto facilita a los profesionales de la ciencia de datos compartir resultados de su trabajo con las partes interesadas y también simplifica la operacionalización.
Los cuadernos que contienen puntuación por lotes se pueden programar para ejecutarse mediante las funcionalidades de programación de cuadernos. La puntuación por lotes también se puede programar como parte de las actividades de canalización de datos o los trabajos de Spark. Power BI obtiene automáticamente las predicciones más recientes sin necesidad de cargar o actualizar los datos, gracias al modo direct lake en Microsoft Fabric.
Los científicos de datos y los analistas de negocios dedican mucho tiempo a tratar de comprender, limpiar y transformar datos antes de que puedan iniciar cualquier análisis significativo. Normalmente, los analistas de negocios trabajan con modelos semánticos y codifican su conocimiento de dominio y la lógica de negocios en medidas de Power BI. Por otro lado, los científicos de datos pueden trabajar con los mismos datos, pero normalmente en un lenguaje o entorno de código diferente.
El vínculo semántico permite a los científicos de datos establecer una conexión entre modelos semánticos de Power BI y la experiencia de ciencia de datos de Synapse en Microsoft Fabric a través de la biblioteca de Python SemPy. SemPy simplifica el análisis de datos mediante la captura y el aprovechamiento de la semántica de datos a medida que los usuarios realizan diversas transformaciones en los modelos semánticos. Al aprovechar el vínculo semántico, los científicos de datos pueden:
A través del uso de SemPy, las organizaciones pueden esperar ver lo siguiente:
Para obtener más información sobre el vínculo semántico, consulte ¿Qué es el vínculo semántico?.
Eventos
31 mar, 23 - 2 abr, 23
Evento de aprendizaje de Fabric, Power BI y SQL más grande. 31 de marzo – 2 de abril. Use el código FABINSIDER para ahorrar $400.
Regístrate hoyCursos
Módulo
Introducción a la ciencia de datos en Microsoft Fabric - Training
Para empezar a trabajar con la ciencia de datos en Microsoft Fabric, aprenda a entrenar un modelo en un cuaderno y realice un seguimiento de las métricas con MLflow y experimentos.
Certificación
Microsoft Certified: Fabric Data Engineer Associate - Certifications
Como ingeniero de datos de tejido, debe tener experiencia en la materia con patrones de carga de datos, arquitecturas de datos y procesos de orquestación.
Documentación
Documentación sobre la ciencia de datos en Microsoft Fabric - Microsoft Fabric
Resumen de la documentación sobre la ciencia de datos en Microsoft Fabric
¿Qué es la ingeniería de datos en Microsoft Fabric? - Microsoft Fabric
Obtenga información sobre los conceptos básicos de ingeniería de datos en Microsoft Fabric y la funcionalidad de análisis que ofrece.
Modelo de Machine Learning - Microsoft Fabric
Obtenga información sobre cómo crear modelos de Machine Learning, administrar versiones dentro de un modelo, realizar un seguimiento de los modelos y aplicar un modelo.