Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek vysvětluje výhody spouštění úloh v dotazovacím stroji Photon.
Photon je vysoce výkonný Azure Databricks nativní vektorizovaný dotazovací modul, který spouští úlohy SQL a volání rozhraní DataFrame API rychleji, aby se snížily celkové náklady na každou úlohu. Photon je kompatibilní s rozhraními Apache Spark API, takže funguje s vaším existujícím kódem.
Funkce Photon
Tady jsou klíčové funkce a výhody používání Photonu.
- Podpora operací SQL a ekvivalentních datových rámců s tabulkami Delta a Parquet
- Zrychlené dotazy, které zpracovávají data rychleji a zahrnují agregace a spojení.
- Rychlejší výkon při opakovaném přístupu k datům z mezipaměti disku.
- Robustní výkon prohledávání tabulek s mnoha sloupci a mnoha malými soubory
- Rychlejší zápis Delta a Parquet pomocí
UPDATE,DELETE,MERGE INTO,INSERTaCREATE TABLE AS SELECT, včetně širokých tabulek, které obsahují tisíce sloupců. - Nahrazuje spojení sort-merge pomocí hash-spojení.
- U úloh AI a ML vylepšuje Photon výkon pro aplikace využívající Spark SQL, Spark DataFrames, analýzu funkcí, GraphFrames a xgboost4j.
Povolení fotonů
Povolení foton se liší podle typu výpočetních prostředků:
- Photon běží ve výchozím nastavení na SQL skladech a bezserverových výpočtech pro pracovní postupy a poznámkové bloky.
- Photon je ve výchozím nastavení povolený pro výpočty, na kterých běží Databricks Runtime 9.1 LTS a novější.
- Photon je možné povolit ručně na výpočetních prostředcích, na kterých běží Databricks Runtime 15.2 pro Machine Learning (EoS) nebo vyšší.
Konfigurace povolení Photon
Pokud chcete povolit nebo zakázat Funkci Photon na výpočetních funkcích a výpočetních úlohách, zaškrtněte políčko Použít akceleraci photon ve výpočetním uživatelském rozhraní.
Photon není ve výchozím nastavení povolen pro žádné výpočetní prostředky vytvořené pomocí rozhraní API clusterů nebo rozhraní API úloh. Chcete-li povolit Photon, musíte nastavit atribut runtime_engine na PHOTON.
Podporované typy instancí
Photon podporuje řadu typů instancí na ovladačích a pracovních uzlech. Typy instancí Photon spotřebovávají jednotky DBU jinou rychlostí než stejný typ instance běžící na runtime bez technologie Photon. Další informace o instancích Photon a spotřebě DBU najdete na stránce s cenami Azure Databricks.
Podporované operátory, výrazy a datové typy
Následují operátory, výrazy a datové typy, které Photon pokrývá.
Operátoři
- Skenování, filtrování, Projektovat
- Hashová agregace/spojení/přeskupení
- Nested-Loop Připojit
- Null-Aware anti join
- Unie, Rozšířit, SkalárníPoddotaz
- Jímka pro zápis Delta/Parquet
- Seřadit
- Funkce okna
Výrazy
- Porovnání / logika
- Aritmetika / matematika (většina)
- Podmíněné (IF, CASE atd.)
- Řetězec (běžné použití)
- Předvádí
- Agregace (nejběžnější)
- Datum a časové razítko
Datové typy
- Bajt/ Krátký/Int/Long
- logický
- Řetězec/binární
- Desetinné číslo
- Plovoucí/dvojitá
- Datum a časové razítko
- Strukt
- Pole
- Mapa
Funkce, které vyžadují Photon
Níže jsou uvedené funkce, které vyžadují Photon.
- Prediktivní vstupně-výstupní operace pro čtení a zápis Podívejte se na co je prediktivní I/O?
- Dynamické vyřezávání souborů v
MERGE,UPDATEa příkazechDELETEViz Dynamické vyřezávání souborů.
Omezení
- Strukturované streamování: Photon v současné době podporuje bezstavové streamování pomocí Delta, Parquet, CSV a JSON. Bezstavové streamování pomocí Kafka a Kinesis je podporováno při zápisu do úložiště Delta nebo Parquet.
- Photon nepodporuje UDF, rozhraní RDD API ani rozhraní API datových sad.
- Photon nemá vliv na dotazy, které se obvykle probíhají za méně než dvě sekundy.
Pokud vaše úloha narazí na nepodporovanou operaci, výpočetní prostředek se přepne na standardní runtime engine pro zbytek úlohy.