Asesor de Apache Spark para obtener consejos en tiempo real sobre cuadernos

El asesor de Apache Spark analiza los comandos y el código ejecutados por Apache Spark y muestra consejos en tiempo real para las ejecuciones de Notebook. El asesor de Apache Spark tiene patrones integrados para ayudar a los usuarios a evitar errores comunes. Ofrece recomendaciones para la optimización del código, realiza el análisis de errores y localiza la causa principal de los errores.

Consejos integrados

El asesor de Spark, una herramienta integrada con Impulse, proporciona patrones integrados para detectar y resolver problemas en aplicaciones de Apache Spark. En este artículo se explican algunos de los patrones incluidos en la herramienta.

Puede abrir el panel Ejecuciones recientes en función del tipo de consejo que necesita.

Puede devolver resultados incoherentes al usar "randomSplit".

Se pueden devolver resultados incoherentes o inexactos al trabajar con el método randomSplit . Use el almacenamiento en caché de Apache Spark (RDD) antes de usar el método randomSplit().

El método randomSplit() es equivalente a realizar sample() en tu marco de datos varias veces. Donde cada muestra vuelve a recuperar, particiona y ordena el data frame dentro de las particiones. La distribución de datos entre particiones y criterio de ordenación es importante para randomSplit() y sample(). Si cualquiera de los elementos cambia al actualizar los datos, puede haber duplicados o valores faltantes a través de las particiones. Y la misma muestra usando la misma semilla puede producir resultados diferentes.

Es posible que estas incoherencias no se produzcan en cada ejecución, pero para eliminarlas por completo, almacenar en caché el marco de datos, volver a particionar en una columna o aplicar funciones de agregado como groupBy.

El nombre de tabla o vista ya está en uso

Ya existe una vista con el mismo nombre que la tabla creada o ya existe una tabla con el mismo nombre que la vista creada. Cuando este nombre se usa en consultas o aplicaciones, solo se devolverá la vista independientemente de la que se haya creado primero. Para evitar conflictos, cambie el nombre de la tabla o de la vista.

No se puede reconocer una pista

spark.sql("SELECT /*+ unknownHint */ * FROM t1")

No se pueden encontrar nombres de relación especificados

No se pueden encontrar las relaciones especificadas en la sugerencia. Compruebe que las relaciones están escritas correctamente y accesibles dentro del ámbito de la sugerencia.

spark.sql("SELECT /*+ BROADCAST(unknownTable) */ * FROM t1 INNER JOIN t2 ON t1.str = t2.str")

Una sugerencia en la consulta impide que se aplique otra sugerencia.

La consulta seleccionada contiene una sugerencia que impide que se aplique otra sugerencia.

spark.sql("SELECT /*+ BROADCAST(t1), MERGE(t1, t2) */ * FROM t1 INNER JOIN t2 ON t1.str = t2.str")

Habilite "spark.advise.divisionExprConvertRule.enable" para reducir la propagación de errores de redondeo

Esta consulta contiene una expresión del tipo Double. Se recomienda habilitar la configuración "spark.advise.divisionExprConvertRule.enable", lo que puede ayudar a reducir las expresiones de división y reducir la propagación de errores de redondeo.

"t.a/t.b/t.c" convert into "t.a/(t.b * t.c)"

Habilite "spark.advise.nonEqJoinConvertRule.enable" para mejorar el rendimiento de las consultas.

Esta consulta contiene una combinación que consume mucho tiempo debido a la condición "Or" dentro de la consulta. Se recomienda habilitar la configuración "spark.advise.nonEqJoinConvertRule.enable", lo que puede ayudar a convertir la combinación desencadenada por la condición "Or" a SMJ o BHJ para acelerar esta consulta.

Recurso alternativo de ejecución en Spark basado en JVM

Cuando el motor de ejecución nativo está habilitado y el plan de ejecución de una celda del notebook contiene operadores que no se pueden transferir al camino nativo, Spark Advisor genera una alerta en tiempo real en la salida de la celda. La alerta indica que la ejecución se revierte a Spark basada en JVM y le ayuda a identificar la causa, como operadores no admitidos, tipos de datos o configuraciones. Para solucionar el retroceso, revise el plan de consulta para las operaciones no admitidas y ajuste la lógica para usar operadores admitidos o compruebe que spark.native.enabled se haya establecido correctamente para su cuaderno o la definición del trabajo de Spark.

Experiencia del usuario

El asesor de Apache Spark muestra los consejos, incluida la información, las advertencias y los errores, en la salida de la celda de Notebook en tiempo real.

Configuración del Asesor de Spark

La configuración del asesor de Spark le permite elegir si mostrar u ocultar tipos específicos de consejos de Spark según sus necesidades. Además, tiene la flexibilidad de habilitar o deshabilitar el Asesor de Spark para los cuadernos dentro de un área de trabajo, en función de sus preferencias.

Puede acceder a la configuración de Spark Advisor en el nivel de Fabric Notebook para disfrutar de sus ventajas y garantizar una experiencia productiva de creación de cuadernos.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-24