Bagikan melalui


Apa itu Photon?

Artikel ini menjelaskan manfaat menjalankan beban kerja Anda pada mesin kueri Photon.

Photon adalah mesin kueri vektorisasi berperforma tinggi Azure Databricks asli yang menjalankan beban kerja SQL dan panggilan API DataFrame Anda lebih cepat untuk mengurangi total biaya per beban kerja Anda. Photon kompatibel dengan API Apache Spark, sehingga berfungsi dengan kode Anda yang ada.

Fitur Photon

Berikut ini adalah fitur utama dan keuntungan menggunakan Photon.

  • Dukungan untuk operasi SQL dan DataFrame yang setara dengan tabel Delta dan Parquet.
  • Kueri yang dipercepat yang memproses data lebih cepat dan menyertakan agregasi dan gabungan.
  • Performa yang lebih cepat ketika data diakses berulang kali dari cache disk.
  • Performa pemindaian yang kuat pada tabel dengan banyak kolom dan banyak file kecil.
  • Penulisan Delta dan Parquet yang lebih cepat menggunakan UPDATE, DELETE, MERGE INTO, INSERT, dan CREATE TABLE AS SELECT, termasuk tabel yang sangat lebar dengan ribuan kolom.
  • Mengganti gabungan sort-merge dengan hash join.
  • Untuk beban kerja AI dan ML, Photon meningkatkan performa untuk aplikasi menggunakan Spark SQL, Spark DataFrames, rekayasa fitur, GraphFrames, dan xgboost4j.

Pengaktifan foton

Pengaktifan foton bervariasi menurut jenis komputasi:

  • Photon berjalan secara default pada gudang SQL dan komputasi tanpa server untuk buku catatan dan alur kerja.

Mengonfigurasi pengaktifan Photon

Untuk mengaktifkan atau menonaktifkan Photon pada komputasi serbaguna dan pekerjaan, pilih kotak centang Gunakan Akselerasi Foton di UI Komputasi.

Photon tidak diaktifkan secara default pada unit komputasi apa pun yang dibuat dengan API Clusters atau API Jobs. Untuk mengaktifkan Photon, Anda harus mengatur atribut runtime_engine ke PHOTON.

Jenis instans yang didukung

Photon mendukung sejumlah tipe instans pada node driver dan node pekerja. Jenis instans photon menggunakan DBU pada tingkat yang berbeda dari jenis instans yang sama yang menjalankan runtime non-Photon. Untuk informasi lebih lanjut tentang instans Photon dan konsumsi DBU, lihat halaman harga Azure Databricks.

Operator, ekspresi, dan jenis data yang didukung

Berikut ini adalah operator, ekspresi, dan jenis data yang dicakup Photon.

Operator

  • Pindai, Filter, Proyeksi
  • Hash Agregat/Gabung/Acak
  • gabungan Nested-Loop
  • Null-Aware Penggabungan Anti
  • Gabungan, Perluasan, ScalarSubquery
  • Penulisan Sink Delta/Parquet
  • Urutkan
  • Fungsi Jendela

Ekspresi

  • Perbandingan/Logika
  • Aritmatika/Matematika (paling banyak)
  • Kondisional (IF, CASE, dll.)
  • String (yang umum)
  • Menyiarkan
  • Agregat-agregat yang paling umum
  • Tanggal/Stempel waktu

Jenis data

  • Byte/Pendek/Int/Panjang
  • Boolean
  • String/Biner
  • Desimal
  • Float/Double
  • Tanggal/Stempel waktu
  • Struktur
  • Array
  • Peta

Fitur yang memerlukan Photon

Berikut ini adalah fitur yang memerlukan Photon.

Batasan

  • Streaming Terstruktur: Photon saat ini mendukung streaming stateless dengan Delta, Parquet, CSV, dan JSON. Streaming tanpa status menggunakan Kafka dan Kinesis didukung saat menulis ke sink Delta atau Parquet.
  • Photon tidak mendukung UDF, API RDD, atau API Himpunan Data.
  • Photon tidak memengaruhi permintaan yang biasanya memakan waktu kurang dari dua detik.

Jika beban kerja Anda mencapai operasi yang tidak didukung, sumber daya komputasi beralih ke mesin runtime standar untuk sisa beban kerja.