Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule wyjaśniono zalety uruchamiania obciążeń w aucie zapytań Photon.
Photon to natywny aparat zapytań usługi Azure Databricks o wysokiej wydajności, który uruchamia obciążenia SQL i wywołania interfejsu API ramki danych szybciej, aby zmniejszyć całkowity koszt obciążenia. Aplikacja Photon jest zgodna z interfejsami API platformy Apache Spark, dlatego działa z istniejącym kodem.
Funkcje photon
Poniżej przedstawiono kluczowe funkcje i zalety korzystania z aplikacji Photon.
- Obsługa operacji SQL i równoważnych ramek danych z tabelami delta i Parquet.
- Przyspieszone zapytania, które przetwarzają dane szybciej i zawierają agregacje i sprzężenia.
- Szybsza wydajność w przypadku wielokrotnego uzyskiwania dostępu do danych z pamięci podręcznej dysku.
- Niezawodna wydajność skanowania w tabelach z wieloma kolumnami i wieloma małymi plikami.
- Szybsze zapisywanie w usłudze Delta i Parquet przy użyciu
UPDATE
,DELETE
,MERGE INTO
,INSERT
iCREATE TABLE AS SELECT
, w tym szerokich tabel, które zawierają tysiące kolumn. - Zamienia sprzężenia sort-merge na sprzężenia skrótów.
- W przypadku obciążeń sztucznej inteligencji i uczenia maszynowego narzędzie Photon zwiększa wydajność aplikacji przy użyciu platformy Spark SQL, ramek danych Spark, inżynierii cech, elementów GraphFrame i xgboost4j.
Włączanie funkcji Photon
Włączanie funkcji Photon różni się w zależności od typu obliczeniowego:
- Narzędzie Photon jest domyślnie uruchamiane w usłudze SQL Warehouse i bezserwerowych obliczeniach dla notesów i przepływów pracy.
- Funkcja Photon jest domyślnie włączona na obliczeniach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.
- Funkcję Photon można włączyć ręcznie na obliczeniach z uruchomionym środowiskiem Databricks Runtime 15.2 dla uczenia maszynowego (EoS) lub nowszym.
Konfigurowanie włączania aplikacji Photon
Aby włączyć lub wyłączyć funkcję Photon w obliczeniach ogólnego przeznaczenia i zadań, zaznacz pole wyboru Użyj przyspieszania Photon w interfejsie użytkownika Compute.
Photon nie jest domyślnie włączony dla żadnych obliczeń utworzonych za pomocą interfejsu API klastrów ani interfejsu API zadań. Aby włączyć program Photon, należy ustawić atrybut runtime_engine
na wartość PHOTON
.
Obsługiwane typy wystąpień
Aplikacja Photon obsługuje wiele typów wystąpień w węzłach sterowników i procesów roboczych. Typy wystąpień photon używają jednostek DBU w innej szybkości niż tego samego typu wystąpienia z uruchomionym środowiskiem uruchomieniowym innym niż Photon. Aby uzyskać więcej informacji na temat wystąpień usługi Photon i użycia jednostek DBU, zobacz stronę cennika usługi Azure Databricks.
Obsługiwane operatory, wyrażenia i typy danych
Poniżej przedstawiono operatory, wyrażenia i typy danych, które obejmuje aplikacja Photon.
Operatorzy
- Skanowanie, filtrowanie, projekt
- Haszowanie/Agregowanie/Łączenie/Tasowanie
- Nested-Loop Dołącz
- Null-Aware antyłączenie
- Połączenie, Rozszerzenie, PodzapytanieSkalarne
- Ujście zapisu delta/Parquet
- Sortuj
- Funkcja okna
Wyrażenia
- Porównanie/logika
- Arytmetyka/Matematyka (większość)
- Warunkowe (IF, CASE itp.)
- Ciąg (typowe)
- Rzuca
- Agregacje (najczęściej używane)
- Znacznik daty/godziny
Typy danych
- Bajt/Krótki/Całkowity/Długi
- Wartość logiczna
- Ciąg/plik binarny
- Dziesiętne
- Zmiennoprzecinkowy/podwójny
- Znacznik daty/godziny
- Struktura
- Tablica
- Mapowanie
Funkcje wymagające aplikacji Photon
Poniżej przedstawiono funkcje, które wymagają aplikacji Photon.
- Predykcyjne operacje we/wy na potrzeby odczytu i zapisu. Zobacz Co to jest predykcyjne I/O?
- Wyrażenia geoprzestrzenne H3. Zobacz Funkcje geoprzestrzenne H3.
- Dynamiczne oczyszczanie plików w instrukcjach
MERGE
,UPDATE
iDELETE
. Zobacz Dynamiczne oczyszczanie plików.
Ograniczenia
- Przesyłanie strumieniowe ze strukturą: aplikacja Photon obecnie obsługuje przesyłanie strumieniowe bezstanowe za pomocą funkcji Delta, Parquet, CSV i JSON. Bezstanowe przesyłanie strumieniowe platform Kafka i Kinesis jest obsługiwane podczas zapisywania w ujściu delta lub Parquet.
- Aplikacja Photon nie obsługuje funkcji zdefiniowanych przez użytkownika, interfejsu API RDD ani interfejsu API zestawów danych.
- Photon nie ma wpływu na zapytania, które zazwyczaj wykonywane są poniżej dwóch sekund.
Jeśli obciążenie osiągnie nieobsługiwaną operację, zasób obliczeniowy przełączy się do standardowego aparatu środowiska uruchomieniowego dla pozostałej części obciążenia.