Co je Photon?

Platí pro:check marked yes Databricks SQL check marked yes Databricks Runtime 9.1 a vyšší

Přečtěte si o výhodách spouštění úloh ve Photonu, o funkcích, které podporuje, a o tom, jak povolit nebo zakázat Photon. Photon je ve výchozím nastavení zapnutý ve službě Databricks SQL Warehouse a je kompatibilní s rozhraními Apache Spark API, takže funguje s vaším existujícím kódem.

K čemu se používá Photon?

Photon je vysoce výkonný vektorizovaný dotazovací modul nativní pro Azure Databricks, který spouští úlohy SQL a volání rozhraní DataFrame API rychleji, aby se snížily celkové náklady na každou úlohu.

Tady jsou klíčové funkce a výhody používání Photonu.

  • Podpora operací SQL a ekvivalentních datových rámců s tabulkami Delta a Parquet
  • Zrychlené dotazy, které zpracovávají data rychleji a zahrnují agregace a spojení.
  • Rychlejší výkon při opakovaném přístupu k datům z mezipaměti disku.
  • Robustní výkon prohledávání tabulek s mnoha sloupci a mnoha malými soubory
  • Rychlejší delta a parquet psaní pomocí UPDATE, , MERGE INTODELETE, INSERTa , a CREATE TABLE AS SELECT, včetně širokých tabulek, které obsahují tisíce sloupců.
  • Nahradí spojení sort-merge za hash-joins.

Začínáme s Photon

Photon je ve výchozím nastavení povolený v clusterech s Modulem Databricks Runtime 9.1 LTS a novějším.

Pokud chcete photon v clusteru ručně zakázat nebo povolit, zaškrtněte při vytváření nebo úpravě clusteru políčko Použít akceleraci photon.

Pokud vytvoříte cluster pomocí rozhraní API clusterů, nastavte runtime_engine na PHOTONhodnotu .

Typy instancí

Photon podporuje řadu typů instancí na ovladačích a pracovních uzlech. Typy instancí Photon spotřebovávají jednotky DBU jinou rychlostí než stejný typ instance, na kterém běží modul runtime bez photon. Další informace o instancích Photon a spotřebě DBU najdete na stránce s cenami Azure Databricks.

Operátory, výrazy a datové typy

Následují operátory, výrazy a datové typy, které Photon pokrývá.

Operátory

  • Skenování, filtrování, projekt
  • Hash Aggregate/Join/Shuffle
  • Spojení vnořené smyčky
  • Anti join pracující s hodnotou null
  • Union, Expand, ScalarSubquery
  • Jímka pro zápis Delta/Parquet
  • Sort
  • Funkce Window

Výrazy

  • Porovnání / logika
  • Aritmetika / matematika (většina)
  • Podmíněné (IF, CASE atd.)
  • Řetězec (běžné)
  • Vrhá
  • Agregace (nejběžnější)
  • Datum a časové razítko

Datové typy

  • Bajt/ Krátký/Int/Long
  • Boolean
  • Řetězec/binární
  • Desetinné číslo
  • Plovoucí/dvojitá
  • Datum a časové razítko
  • Struktura
  • Pole
  • Mapovat

Funkce, které vyžadují Photon

Níže jsou uvedené funkce, které vyžadují Photon.

Omezení

  • Strukturované streamování: Photon v současné době podporuje bezstavové streamování pomocí Delta, Parquet, CSV a JSON. Při zápisu do jímky Delta nebo Parquet se podporuje bezstavové streamování Kafka a Kinesis.
  • Photon nepodporuje UDF ani rozhraní RDD API.
  • Photon nemá vliv na dotazy, které se obvykle spouštějí za méně než dvě sekundy.

Funkce, které Photon nepodporuje, fungují stejně, jako by fungovaly s modulem Databricks Runtime.