Compartir vía


Fabric Runtime 2.0 (versión preliminar)

Importante

Esta característica se encuentra en versión preliminar.

Fabric Runtime ofrece una integración perfecta en el ecosistema de Microsoft Fabric, que ofrece un entorno sólido para proyectos de ingeniería de datos y ciencia de datos con tecnología de Apache Spark.

En este artículo se presenta La versión preliminar pública de Fabric Runtime 2.0, el entorno de ejecución más reciente diseñado para cálculos de macrodatos en Microsoft Fabric. Resalta las características y componentes clave que hacen de esta versión un paso importante para el análisis escalable y las cargas de trabajo avanzadas.

Fabric Runtime 2.0 incorpora los siguientes componentes y actualizaciones diseñados para mejorar las funcionalidades de procesamiento de datos:

  • Apache Spark 4.0
  • Sistema operativo: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.12
  • Delta Lake: 4.0
  • R: 4.5.2

Sugerencia

Fabric Runtime 2.0 incluye compatibilidad con el motor de ejecución nativo, lo que puede mejorar significativamente el rendimiento sin más costos. Puede habilitar el motor de ejecución nativo en el nivel de entorno para que todos los trabajos y cuadernos hereden automáticamente las funcionalidades de rendimiento mejoradas.

Habilitación del entorno de ejecución 2.0

Puede habilitar Runtime 2.0 en el nivel de área de trabajo o en el nivel de elemento de entorno. Use la configuración del área de trabajo para aplicar Runtime 2.0 como valor predeterminado para todas las cargas de trabajo de Spark del área de trabajo. Como alternativa, cree un elemento de entorno con Runtime 2.0 para usarlo con cuadernos específicos o definiciones de trabajo de Spark, que invalida el valor predeterminado del área de trabajo.

Habilitación del entorno de ejecución 2.0 en la configuración del área de trabajo

Para establecer Runtime 2.0 como valor predeterminado para todo el área de trabajo:

  1. Vaya a la página Configuración del área de trabajo dentro del área de trabajo de Fabric.

    Captura de pantalla que muestra dónde seleccionar la versión en tiempo de ejecución para la configuración del área de trabajo.

  2. Seleccione la pestaña Ingeniería de datos/Ciencia y, a continuación, seleccione Configuración de Spark.

  3. Seleccione la pestaña Entorno.

  4. En la lista desplegable Versión en tiempo de ejecución, seleccione 2.0 Versión preliminar pública (Spark 4.0, Delta 4.0) y guarde los cambios.

  5. Runtime 2.0 se establece como el tiempo de ejecución predeterminado para el área de trabajo.

Habilitar entorno de ejecución 2.0 en un elemento de entorno

Para usar Runtime 2.0 con cuadernos específicos o definiciones de trabajo de Spark:

  1. Cree un nuevo elemento Entorno o abra uno existente.

  2. En la lista desplegable Runtime, seleccione 2.0 Public Preview (Spark 4.0, Delta 4.0)Save y Publish aplique los cambios.

    Captura de pantalla que muestra dónde seleccionar la versión en tiempo de ejecución para el elemento Entorno.

  3. A continuación, puede usar este elemento de entorno con su Notebook o Spark Job Definition.

Ahora puede empezar a experimentar con las mejoras y funcionalidades más recientes introducidas en Fabric Runtime 2.0 (Spark 4.0 y Delta Lake 4.0).

Nota:

El protocolo WASB para las cuentas de Azure Storage de uso general v2 (GPv2) está en desuso. En su lugar, debe usar el protocolo ABFS más reciente para leer y escribir en cuentas de almacenamiento de GPv2.

Versión preliminar pública

La fase de versión preliminar pública de Fabric Runtime 2.0 proporciona acceso a nuevas características y API de Spark 4.0 y Delta Lake 4.0. La versión preliminar le permite usar las mejoras más recientes basadas en Spark y Delta inmediatamente, así como garantizar una preparación y transición sin problemas para cambios mejorados y mejorados, como las versiones más recientes de Java, Scala y Python.

Sugerencia

Para obtener información actualizada, una lista detallada de cambios y notas de la versión específicas de los entornos de ejecución de Fabric, comprueba y suscríbete a Versiones y actualizaciones de Spark Runtimes.

Aspectos destacados clave

Apache Spark 4.0

Apache Spark 4.0 marca un hito importante como la versión inicial de la serie 4.x, que incorpora el esfuerzo colectivo de la vibrante comunidad de código abierto.

En esta versión, Spark SQL se enriquece significativamente con eficaces características nuevas diseñadas para aumentar la expresividad y la versatilidad de las cargas de trabajo de SQL, como la compatibilidad con el tipo de datos VARIANT, las funciones definidas por el usuario de SQL, las variables de sesión, la sintaxis de canalización y la intercalación de cadenas. PySpark ve una dedicación continua tanto a su amplitud funcional como a la experiencia general del desarrollador, lo que aporta una API de trazado nativo, una nueva API de origen de datos de Python, compatibilidad con UDF de Python y generación de perfiles unificada para UDF de PySpark, junto con muchas otras mejoras. Structured Streaming evoluciona con adiciones clave que proporcionan un mayor control y facilidad de depuración, en particular la introducción de la API de estado arbitrario v2 para una administración de estado más flexible y el origen de datos de estado para facilitar la depuración.

Puedes consultar la lista completa y los cambios detallados aquí: https://spark.apache.org/releases/spark-release-4-0-0.html.

Nota:

En Spark 4.0, SparkR está en desuso y podría quitarse en una versión futura.

Delta Lake 4.0

Delta Lake 4.0 marca un compromiso colectivo de hacer que Delta Lake sea interoperable a través de formatos, más fácil de trabajar con y más rendimiento. Delta 4.0 es una versión histórica que ofrece nuevas características eficaces, optimizaciones de rendimiento y mejoras fundamentales para el futuro de los repositorios de datos abiertos tipo lakehouse.

Puede consultar la lista completa y los cambios detallados introducidos con Delta Lake 3.3 y 4.0 aquí: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.

Importante

Las características específicas de Delta Lake 4.0 son experimentales y solo funcionan en experiencias de Spark, como cuadernos y definiciones de trabajos de Spark. Si necesita usar las mismas tablas de Delta Lake en varias cargas de trabajo de Microsoft Fabric, no habilite esas características. Para obtener más información sobre qué versiones y características de protocolo son compatibles en todas las experiencias de Microsoft Fabric, lea Interoperabilidad con formato de tabla delta Lake.