¿Qué es Photon?

Artículo
03/01/2024

Se aplica a: check marked yes Databricks SQL Databricks Runtime 9.1 y versiones posteriores

Obtenga información sobre las ventajas de ejecutar las cargas de trabajo en Photon, las características que admite y cómo habilitar o deshabilitar Photon. Photon está activado de forma predeterminada en almacenes de Databricks SQL y es compatible con las API de Apache Spark, por lo que funciona con el código existente.

¿Para qué se usa Photon?

Photon es el motor nativo de consultas vectorizadas de Azure Databricks de alto rendimiento que ejecuta sus cargas de trabajo SQL y llamadas a las API DataFrame de forma más rápida para reducir el costo total por carga de trabajo.

A continuación se muestran las características y ventajas clave del uso de Photon.

Compatible con SQL y operaciones DataFrame equivalentes en tablas Delta y Parquet.
Consultas aceleradas que procesan los datos más rápido e incluyen agregaciones y combinaciones.
Rendimiento más rápido cuando se accede a los datos repetidamente desde la caché de disco.
Rendimiento de examen sólido en tablas con muchas columnas y muchos archivos pequeños.
Escritura más rápida de Delta y Parquet con UPDATE, DELETE, MERGE INTO, INSERT y CREATE TABLE AS SELECT, incluyendo tablas anchas que contienen miles de columnas.
Reemplaza las combinaciones de ordenar y fusionar por combinaciones hash.

Introducción a Photon

Photon está habilitado de forma predeterminada en clústeres que ejecutan Databricks Runtime 9.1 LTS o posteriores.

Para deshabilitar o habilitar Photon manualmente en el clúster, seleccione la casilla Usar aceleración de Photon al crear o editar el clúster.

Si crea un clúster mediante la API de clústeres, establezca runtime_engine en PHOTON.

Tipos de instancia

Photon admite una cantidad de tipos de instancia en los nodos de controlador y de trabajo. Los tipos de instancia de Photon consumen DBU (unidades de Databricks) a una velocidad diferente a la del mismo tipo de instancia que ejecuta el entorno de ejecución que no es Photon. Para más información sobre las instancias de Photon y el consumo de DBU, consulte la página de precios de Azure Databricks.

Operadores, expresiones y tipos de datos

A continuación se muestran los operadores, expresiones y tipos de datos que Photon cubre.

Operadores

Examen, filtro, proyecto
Agregar / Combinar / Ordenar de forma aleatoria un hash
Unión de bucle anidado
Unión anti null-aware
Union, Expand, ScalarSubquery
Receptor de escritura Delta/Parquet
Sort
Función de ventana

Expresiones

Comparación / Lógica
Aritmética / Matemáticas (la mayoría)
Condicional (IF, CASE, etc.)
Cadena (comunes)
Conversiones
Agregados (los más comunes)
Fecha / Marca de tiempo

Tipos de datos

Byte/Short/Int/Long
Boolean
Cadena/binario
Decimal
Float / Doble
Fecha / Marca de tiempo
Estructura
Array
Map

Características que requieren Photon

A continuación se muestran las características que requieren Photon.

E/S predictiva para lectura y escritura. Consulte ¿Qué es la E/S predictiva?.
Expresiones geoespaciales H3. Consulte funciones geoespaciales H3
Eliminación dinámica de archivos. Consulte Eliminación dinámica de archivos.

Limitaciones

Structured Streaming: Photon admite actualmente streaming sin estado con Delta, Parquet, CSV y JSON. El streaming de Kinesis y Kafka sin estado se admite cuando se escribe en un receptor Delta o Parquet.
Photon no admite UDF ni API RDD.
Photon no afecta a las consultas que normalmente se ejecutan en menos de dos segundos.

Las características no admitidas por Photon se ejecutan de la misma manera que con Databricks Runtime.