Co to jest Photon?
Dotyczy: Databricks SQL Databricks Runtime 9.1 i nowsze
Dowiedz się więcej na temat zalet uruchamiania obciążeń w usłudze Photon, funkcji, które obsługuje, oraz sposobu włączania lub wyłączania aplikacji Photon. Aplikacja Photon jest domyślnie włączona w magazynach SQL usługi Databricks i jest zgodna z interfejsami API platformy Apache Spark, więc działa z istniejącym kodem.
Do czego służy aplikacja Photon?
Photon to natywny aparat zapytań usługi Azure Databricks o wysokiej wydajności, który uruchamia obciążenia SQL i wywołania interfejsu API ramki danych szybciej, aby zmniejszyć całkowity koszt obciążenia.
Poniżej przedstawiono kluczowe funkcje i zalety korzystania z aplikacji Photon.
- Obsługa operacji SQL i równoważnych ramek danych z tabelami delta i Parquet.
- Przyspieszone zapytania, które przetwarzają dane szybciej i zawierają agregacje i sprzężenia.
- Szybsza wydajność w przypadku wielokrotnego uzyskiwania dostępu do danych z pamięci podręcznej dysku.
- Niezawodna wydajność skanowania w tabelach z wieloma kolumnami i wieloma małymi plikami.
- Szybsze zapisywanie w usłudze Delta i Parquet przy użyciu tabel
UPDATE
, ,DELETE
MERGE INTO
,INSERT
iCREATE TABLE AS SELECT
, w tym szerokich tabel zawierających tysiące kolumn. - Zamienia sprzężenia sort-merge na sprzężenia skrótów.
Wprowadzenie do aplikacji Photon
Aplikacja Photon jest domyślnie włączona w klastrach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.
Aby ręcznie wyłączyć lub włączyć funkcję Photon w klastrze, zaznacz pole wyboru Użyj przyspieszania photon podczas tworzenia lub edytowania klastra.
Jeśli tworzysz klaster przy użyciu interfejsu API klastrów, ustaw wartość runtime_engine
PHOTON
.
Typy wystąpień
Aplikacja Photon obsługuje wiele typów wystąpień w węzłach sterowników i procesów roboczych. Typy wystąpień photon używają jednostek DBU w innej szybkości niż tego samego typu wystąpienia z uruchomionym środowiskiem uruchomieniowym innym niż Photon. Aby uzyskać więcej informacji na temat wystąpień usługi Photon i użycia jednostek DBU, zobacz stronę cennika usługi Azure Databricks.
Operatory, wyrażenia i typy danych
Poniżej przedstawiono operatory, wyrażenia i typy danych, które obejmuje aplikacja Photon.
Operatory
- Skanowanie, filtrowanie, projekt
- Agregowanie skrótów/sprzężenia/shuffle
- Sprzężenia zagnieżdżonej pętli
- Antysprzężenia z obsługą wartości null
- Union, Expand, ScalarSubquery
- Ujście zapisu delta/Parquet
- Sortuj
- Funkcja okna
Wyrażenia
- Porównanie/logika
- Arytmetyka/Matematyka (większość)
- Warunkowe (IF, CASE itp.)
- Ciąg (typowe)
- Rzuca
- Agregacje (najczęściej używane)
- Znacznik daty/godziny
Typy danych
- Byte/Short/Int/Long
- Wartość logiczna
- Ciąg/plik binarny
- Dziesiętne
- Zmiennoprzecinkowy/podwójny
- Znacznik daty/godziny
- Struct
- Tablica
- Mapowanie
Funkcje wymagające aplikacji Photon
Poniżej przedstawiono funkcje, które wymagają aplikacji Photon.
- Predykcyjne operacje we/wy na potrzeby odczytu i zapisu. Zobacz Co to jest predykcyjne we/wy?
- Wyrażenia geoprzestrzenne H3. Zobacz Funkcje geoprzestrzenne H3.
- Dynamiczne oczyszczanie plików. Zobacz Dynamiczne oczyszczanie plików.
Ograniczenia
- Przesyłanie strumieniowe ze strukturą: aplikacja Photon obecnie obsługuje przesyłanie strumieniowe bezstanowe za pomocą funkcji Delta, Parquet, CSV i JSON. Bezstanowe przesyłanie strumieniowe platform Kafka i Kinesis jest obsługiwane podczas zapisywania w ujściu delta lub Parquet.
- Aplikacja Photon nie obsługuje funkcji zdefiniowanych przez użytkownika ani interfejsów API RDD.
- Photon nie ma wpływu na zapytania, które zwykle działają w ciągu dwóch sekund.
Funkcje nieobsługiwane przez narzędzie Photon działają tak samo jak w przypadku usługi Databricks Runtime.