Co to jest Photon?

Dotyczy:check marked yes Databricks SQL check marked yes Databricks Runtime 9.1 i nowsze

Dowiedz się więcej na temat zalet uruchamiania obciążeń w usłudze Photon, funkcji, które obsługuje, oraz sposobu włączania lub wyłączania aplikacji Photon. Aplikacja Photon jest domyślnie włączona w magazynach SQL usługi Databricks i jest zgodna z interfejsami API platformy Apache Spark, więc działa z istniejącym kodem.

Do czego służy aplikacja Photon?

Photon to natywny aparat zapytań usługi Azure Databricks o wysokiej wydajności, który uruchamia obciążenia SQL i wywołania interfejsu API ramki danych szybciej, aby zmniejszyć całkowity koszt obciążenia.

Poniżej przedstawiono kluczowe funkcje i zalety korzystania z aplikacji Photon.

  • Obsługa operacji SQL i równoważnych ramek danych z tabelami delta i Parquet.
  • Przyspieszone zapytania, które przetwarzają dane szybciej i zawierają agregacje i sprzężenia.
  • Szybsza wydajność w przypadku wielokrotnego uzyskiwania dostępu do danych z pamięci podręcznej dysku.
  • Niezawodna wydajność skanowania w tabelach z wieloma kolumnami i wieloma małymi plikami.
  • Szybsze zapisywanie w usłudze Delta i Parquet przy użyciu tabel UPDATE, , DELETEMERGE INTO, INSERTi CREATE TABLE AS SELECT, w tym szerokich tabel zawierających tysiące kolumn.
  • Zamienia sprzężenia sort-merge na sprzężenia skrótów.

Wprowadzenie do aplikacji Photon

Aplikacja Photon jest domyślnie włączona w klastrach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.

Aby ręcznie wyłączyć lub włączyć funkcję Photon w klastrze, zaznacz pole wyboru Użyj przyspieszania photon podczas tworzenia lub edytowania klastra.

Jeśli tworzysz klaster przy użyciu interfejsu API klastrów, ustaw wartość runtime_enginePHOTON.

Typy wystąpień

Aplikacja Photon obsługuje wiele typów wystąpień w węzłach sterowników i procesów roboczych. Typy wystąpień photon używają jednostek DBU w innej szybkości niż tego samego typu wystąpienia z uruchomionym środowiskiem uruchomieniowym innym niż Photon. Aby uzyskać więcej informacji na temat wystąpień usługi Photon i użycia jednostek DBU, zobacz stronę cennika usługi Azure Databricks.

Operatory, wyrażenia i typy danych

Poniżej przedstawiono operatory, wyrażenia i typy danych, które obejmuje aplikacja Photon.

Operatory

  • Skanowanie, filtrowanie, projekt
  • Agregowanie skrótów/sprzężenia/shuffle
  • Sprzężenia zagnieżdżonej pętli
  • Antysprzężenia z obsługą wartości null
  • Union, Expand, ScalarSubquery
  • Ujście zapisu delta/Parquet
  • Sortuj
  • Funkcja okna

Wyrażenia

  • Porównanie/logika
  • Arytmetyka/Matematyka (większość)
  • Warunkowe (IF, CASE itp.)
  • Ciąg (typowe)
  • Rzuca
  • Agregacje (najczęściej używane)
  • Znacznik daty/godziny

Typy danych

  • Byte/Short/Int/Long
  • Wartość logiczna
  • Ciąg/plik binarny
  • Dziesiętne
  • Zmiennoprzecinkowy/podwójny
  • Znacznik daty/godziny
  • Struct
  • Tablica
  • Mapowanie

Funkcje wymagające aplikacji Photon

Poniżej przedstawiono funkcje, które wymagają aplikacji Photon.

Ograniczenia

  • Przesyłanie strumieniowe ze strukturą: aplikacja Photon obecnie obsługuje przesyłanie strumieniowe bezstanowe za pomocą funkcji Delta, Parquet, CSV i JSON. Bezstanowe przesyłanie strumieniowe platform Kafka i Kinesis jest obsługiwane podczas zapisywania w ujściu delta lub Parquet.
  • Aplikacja Photon nie obsługuje funkcji zdefiniowanych przez użytkownika ani interfejsów API RDD.
  • Photon nie ma wpływu na zapytania, które zwykle działają w ciągu dwóch sekund.

Funkcje nieobsługiwane przez narzędzie Photon działają tak samo jak w przypadku usługi Databricks Runtime.