Was ist Photon?

Gilt für:check marked yes Databricks SQL check marked yes Databricks Runtime 9.1 und höher

Erfahren Sie mehr über die Vorteile der Ausführung Ihrer Workloads auf Photon, die unterstützten Features und das Aktivieren oder Deaktivieren von Photon. Photon ist standardmäßig in Databricks SQL-Warehouses aktiviert und ist mit Apache Spark-APIs kompatibel, sodass es mit Ihrem vorhandenen Code funktioniert.

Wofür wird Photon verwendet?

Photon ist ein leistungsstarkes Azure Databricks-natives vektorisiertes Abfragemodul, das Ihre SQL-Workloads und DataFrame-API-Aufrufe schneller ausführt, um Ihre Gesamtkosten pro Workload zu senken.

Im Folgenden finden Sie wichtige Features und Vorteile der Verwendung von Photon.

  • Unterstützung für SQL und entsprechende DataFrame-Vorgänge mit Delta- und Parquet-Tabellen.
  • Beschleunigte Abfragen, die Daten schneller verarbeiten und Aggregationen und Verknüpfungen enthalten.
  • Schnellere Leistung, wenn wiederholt über den Datenträgercache auf Daten zugegriffen wird.
  • Stabile Scanleistung für Tabellen mit vielen Spalten und vielen kleinen Dateien.
  • Schnelleres Schreiben von Delta und Parkett mithilfe von UPDATE, DELETE, MERGE INTO, INSERT und CREATE TABLE AS SELECT, einschließlich breite Tabellen, die Tausende von Spalten enthalten.
  • Ersetzt Sort-Merge-Joins durch Hash-Joins.

Erste Schritte mit Python

Photon ist auf Clustern mit Databricks Runtime 9.1 LTS und höher standardmäßig aktiviert.

Um Photon auf Ihrem Cluster manuell zu deaktivieren oder zu aktivieren, aktivieren Sie das Kontrollkästchen Photon-Beschleunigung verwenden, wenn Sie den Cluster erstellen oder bearbeiten.

Wenn Sie einen Cluster mit der Cluster-API erstellen, legen Sie runtime_engine auf PHOTON fest.

Instanztypen

Photon unterstützt eine begrenzte Anzahl von Instanztypen auf den Treiber- und Workerknoten. Photon-Instanztypen verbrauchen DBUs mit einer anderen Rate als gleiche Instanztypen, auf denen die Nicht-Photon-Runtime ausgeführt wird. Weitere Informationen zu Photon-Instanzen und zum DBU-Verbrauch finden Sie auf der Azure Databricks-Preisseite.

Operatoren, Ausdrücke und Datentypen

Im Folgenden sind die Operatoren, Ausdrücke und Datentypen aufgeführt, die Photon abdeckt.

Operatoren

  • Scan, Filter, Project
  • Hash Aggregate/Join/Shuffle
  • Join geschachtelter Schleifen
  • NULL-fähiger Anti-Join
  • Union, Expand, ScalarSubquery
  • Delta/Parquet-Schreibsenke
  • Sortieren
  • Fensterfunktion

Ausdrücke

  • Vergleich/Logik
  • Arithmetik/Mathematik (die meisten)
  • Bedingt (IF, CASE usw.)
  • Zeichenfolge (gängige Zeichenfolgen)
  • Umwandlungen
  • Aggregate (die gängigsten)
  • Datum/Zeitstempel

Datentypen

  • Byte/Short/Int/Long
  • Boolean
  • Zeichenfolge/Binär
  • Decimal
  • Float/Double
  • Datum/Zeitstempel
  • Struktur
  • Array
  • Map

Features, die Photon erfordern

Im Folgenden finden Sie Features, die Photon erfordern.

Begrenzungen

  • Strukturiertes Streaming: Photon unterstützt derzeit zustandsloses Streaming mit Delta, Parquet, CSV und JSON. Zustandsloses Kafka- und Kinesis-Streaming wird beim Schreiben in eine Delta- oder Parquet-Senke unterstützt.
  • Photon unterstützt keine UDFs oder RDD-APIs.
  • Photon wirkt sich nicht auf Abfragen aus, die normalerweise in unter zwei Sekunden ausgeführt werden.

Von Photon nicht unterstützte Features werden genauso ausgeführt wie mit Databricks Runtime.