Co to jest Photon?

Artykuł
03/01/2024

Dotyczy: check marked yes Databricks SQL Databricks Runtime 9.1 i nowsze

Dowiedz się więcej na temat zalet uruchamiania obciążeń w usłudze Photon, funkcji, które obsługuje, oraz sposobu włączania lub wyłączania aplikacji Photon. Aplikacja Photon jest domyślnie włączona w magazynach SQL usługi Databricks i jest zgodna z interfejsami API platformy Apache Spark, więc działa z istniejącym kodem.

Do czego służy aplikacja Photon?

Photon to natywny aparat zapytań usługi Azure Databricks o wysokiej wydajności, który uruchamia obciążenia SQL i wywołania interfejsu API ramki danych szybciej, aby zmniejszyć całkowity koszt obciążenia.

Poniżej przedstawiono kluczowe funkcje i zalety korzystania z aplikacji Photon.

Obsługa operacji SQL i równoważnych ramek danych z tabelami delta i Parquet.
Przyspieszone zapytania, które przetwarzają dane szybciej i zawierają agregacje i sprzężenia.
Szybsza wydajność w przypadku wielokrotnego uzyskiwania dostępu do danych z pamięci podręcznej dysku.
Niezawodna wydajność skanowania w tabelach z wieloma kolumnami i wieloma małymi plikami.
Szybsze zapisywanie w usłudze Delta i Parquet przy użyciu tabel UPDATE, , DELETEMERGE INTO, INSERTi CREATE TABLE AS SELECT, w tym szerokich tabel zawierających tysiące kolumn.
Zamienia sprzężenia sort-merge na sprzężenia skrótów.

Wprowadzenie do aplikacji Photon

Aplikacja Photon jest domyślnie włączona w klastrach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.

Aby ręcznie wyłączyć lub włączyć funkcję Photon w klastrze, zaznacz pole wyboru Użyj przyspieszania photon podczas tworzenia lub edytowania klastra.

Jeśli tworzysz klaster przy użyciu interfejsu API klastrów, ustaw wartość runtime_enginePHOTON.

Typy wystąpień

Aplikacja Photon obsługuje wiele typów wystąpień w węzłach sterowników i procesów roboczych. Typy wystąpień photon używają jednostek DBU w innej szybkości niż tego samego typu wystąpienia z uruchomionym środowiskiem uruchomieniowym innym niż Photon. Aby uzyskać więcej informacji na temat wystąpień usługi Photon i użycia jednostek DBU, zobacz stronę cennika usługi Azure Databricks.

Operatory, wyrażenia i typy danych

Poniżej przedstawiono operatory, wyrażenia i typy danych, które obejmuje aplikacja Photon.

Operatory

Skanowanie, filtrowanie, projekt
Agregowanie skrótów/sprzężenia/shuffle
Sprzężenia zagnieżdżonej pętli
Antysprzężenia z obsługą wartości null
Union, Expand, ScalarSubquery
Ujście zapisu delta/Parquet
Sortuj
Funkcja okna

Wyrażenia

Porównanie/logika
Arytmetyka/Matematyka (większość)
Warunkowe (IF, CASE itp.)
Ciąg (typowe)
Rzuca
Agregacje (najczęściej używane)
Znacznik daty/godziny

Typy danych

Byte/Short/Int/Long
Wartość logiczna
Ciąg/plik binarny
Dziesiętne
Zmiennoprzecinkowy/podwójny
Znacznik daty/godziny
Struct
Tablica
Mapowanie

Funkcje wymagające aplikacji Photon

Poniżej przedstawiono funkcje, które wymagają aplikacji Photon.

Predykcyjne operacje we/wy na potrzeby odczytu i zapisu. Zobacz Co to jest predykcyjne we/wy?
Wyrażenia geoprzestrzenne H3. Zobacz Funkcje geoprzestrzenne H3.
Dynamiczne oczyszczanie plików. Zobacz Dynamiczne oczyszczanie plików.

Ograniczenia

Przesyłanie strumieniowe ze strukturą: aplikacja Photon obecnie obsługuje przesyłanie strumieniowe bezstanowe za pomocą funkcji Delta, Parquet, CSV i JSON. Bezstanowe przesyłanie strumieniowe platform Kafka i Kinesis jest obsługiwane podczas zapisywania w ujściu delta lub Parquet.
Aplikacja Photon nie obsługuje funkcji zdefiniowanych przez użytkownika ani interfejsów API RDD.
Photon nie ma wpływu na zapytania, które zwykle działają w ciągu dwóch sekund.

Funkcje nieobsługiwane przez narzędzie Photon działają tak samo jak w przypadku usługi Databricks Runtime.