Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
In diesem Artikel werden die Vorteile der Ausführung Ihrer Workloads im Photon-Abfragemodul erläutert.
Photon ist ein leistungsstarkes Azure Databricks-natives vektorisiertes Abfragemodul, das Ihre SQL-Workloads und DataFrame-API-Aufrufe schneller ausführt, um Ihre Gesamtkosten pro Workload zu senken. Photon ist mit Apache Spark-APIs kompatibel, sodass es mit Ihrem vorhandenen Code funktioniert.
Photon-Features
Im Folgenden finden Sie wichtige Features und Vorteile der Verwendung von Photon.
- Unterstützung für SQL und entsprechende DataFrame-Vorgänge mit Delta- und Parquet-Tabellen.
- Beschleunigte Abfragen, die Daten schneller verarbeiten und Aggregationen und Verknüpfungen enthalten.
- Schnellere Leistung, wenn wiederholt über den Datenträgercache auf Daten zugegriffen wird.
- Stabile Scanleistung für Tabellen mit vielen Spalten und vielen kleinen Dateien.
- Schnelleres Schreiben von Delta und Parkett mithilfe von
UPDATE,DELETE,MERGE INTO,INSERTundCREATE TABLE AS SELECT, einschließlich breite Tabellen, die Tausende von Spalten enthalten. - Ersetzt Sort-Merge-Joins durch Hash-Joins.
- Bei KI- und ML-Workloads verbessert Photon die Leistung von Anwendungen mit Spark SQL, Spark DataFrames, Feature Engineering, GraphFrames und xgboost4j.
Photon-Aktivierung
Die Photon-Aktivierung variiert je nach Compute-Typ:
- Photon wird standardmäßig in SQL-Warehouses und serverloses Computing für Notebooks und Workflows ausgeführt.
- Photon ist standardmäßig bei Berechnungen aktiviert, die Databricks Runtime 9.1 LTS oder höher verwenden.
- Photon kann auf Compute mit Databricks Runtime 15.2 für Machine Learning (EoS) oder höher manuell aktiviert werden.
Konfigurieren der Photon-Aktivierung
Zum Aktivieren oder Deaktivieren von Photon für allgemeine und spezialisierte Rechenaufgaben markieren Sie das Kontrollkästchen Photonbeschleunigung verwenden in der Compute-Benutzeroberfläche.
Photon ist für jede berechnung, die mit der Cluster-API oder Auftrags-API erstellt wurde, standardmäßig nicht aktiviert. Um Photon zu aktivieren, müssen Sie das runtime_engine Attribut auf PHOTON.
Unterstützte Instanztypen
Photon unterstützt eine begrenzte Anzahl von Instanztypen auf den Treiber- und Workerknoten. Photon-Instanztypen verbrauchen DBUs mit einer anderen Rate als gleiche Instanztypen, auf denen die Nicht-Photon-Runtime ausgeführt wird. Weitere Informationen zu Photon-Instanzen und DBU-Verbrauch finden Sie auf der Azure Databricks-Preisseite.
Unterstütze Operatoren, Ausdrücke und Datentypen
Im Folgenden sind die Operatoren, Ausdrücke und Datentypen aufgeführt, die Photon abdeckt.
Betriebspersonal
- Scannen, Filtern, Projekt
- Hash- und Aggregat/Join/Shuffle
- Join geschachtelter Schleifen
- NULL-fähiger Anti-Join
- Union, Expand, ScalarSubquery
- Delta/Parquet-Schreibsenke
- Sortieren
- Fensterfunktion
Ausdrücke
- Vergleich/Logik
- Arithmetik/Mathematik (die meisten)
- Bedingt (IF, CASE usw.)
- Zeichenfolge (gängige Zeichenfolgen)
- Umwandlungen
- Aggregate (die gängigsten)
- Datum/Zeitstempel
Datentypen
- Byte/Short/Int/Long
- Boolescher Typ (Boolean)
- Zeichenfolge/Binär
- Dezimalzahl
- Float/Double
- Datum/Zeitstempel
- Struktur
- Anordnung
- Landkarte
Features, die Photon erfordern
Im Folgenden finden Sie Features, die Photon erfordern.
- Vorhersage-E/A für Lesen und Schreiben. Lesen Sie Was ist prädiktives I/O?.
- H3-Geodatenausdrücke. Siehe H3-Geospatialfunktionen.
- Dynamische Dateibereinigung in
MERGE-,UPDATE- undDELETE-Anweisungen. Siehe "Dynamisches Dateischneiden".
Begrenzungen
- Strukturiertes Streaming: Photon unterstützt derzeit zustandsloses Streaming mit Delta, Parquet, CSV und JSON. Zustandsloses Kafka- und Kinesis-Streaming wird beim Schreiben in eine Delta- oder Parquet-Senke unterstützt.
- Photon unterstützt UDFs, RDD-APIs oder Dataset-APIs nicht.
- Photon wirkt sich nicht auf Abfragen aus, die normalerweise in weniger als zwei Sekunden ausgeführt werden.
Wenn Ihre Workload auf einen nicht unterstützten Vorgang trifft, wechselt die Compute-Ressource für den Rest der Workload zum Standardausführungsmodul.