Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menjelaskan manfaat menjalankan beban kerja Anda pada mesin kueri Photon.
Photon adalah mesin kueri vektorisasi berperforma tinggi Azure Databricks asli yang menjalankan beban kerja SQL dan panggilan API DataFrame Anda lebih cepat untuk mengurangi total biaya per beban kerja Anda. Photon kompatibel dengan API Apache Spark, sehingga berfungsi dengan kode Anda yang ada.
Fitur Photon
Berikut ini adalah fitur utama dan keuntungan menggunakan Photon.
- Dukungan untuk operasi SQL dan DataFrame yang setara dengan tabel Delta dan Parquet.
- Kueri yang dipercepat yang memproses data lebih cepat dan menyertakan agregasi dan gabungan.
- Performa yang lebih cepat ketika data diakses berulang kali dari cache disk.
- Performa pemindaian yang kuat pada tabel dengan banyak kolom dan banyak file kecil.
- Penulisan Delta dan Parquet yang lebih cepat menggunakan
UPDATE,DELETE,MERGE INTO,INSERT, danCREATE TABLE AS SELECT, termasuk tabel yang sangat lebar dengan ribuan kolom. - Mengganti gabungan sort-merge dengan hash join.
- Untuk beban kerja AI dan ML, Photon meningkatkan performa untuk aplikasi menggunakan Spark SQL, Spark DataFrames, rekayasa fitur, GraphFrames, dan xgboost4j.
Pengaktifan foton
Pengaktifan foton bervariasi menurut jenis komputasi:
- Photon berjalan secara default pada gudang SQL dan komputasi tanpa server untuk buku catatan dan alur kerja.
- Photon diaktifkan secara default pada komputasi yang menjalankan Databricks Runtime 9.1 LTS ke atas.
- Photon dapat diaktifkan secara manual pada komputasi yang berjalan Databricks Runtime 15.2 untuk Machine Learning (EoS) atau lebih tinggi.
Mengonfigurasi pengaktifan Photon
Untuk mengaktifkan atau menonaktifkan Photon pada komputasi serbaguna dan pekerjaan, pilih kotak centang Gunakan Akselerasi Foton di UI Komputasi.
Photon tidak diaktifkan secara default pada unit komputasi apa pun yang dibuat dengan API Clusters atau API Jobs. Untuk mengaktifkan Photon, Anda harus mengatur atribut runtime_engine ke PHOTON.
Jenis instans yang didukung
Photon mendukung sejumlah tipe instans pada node driver dan node pekerja. Jenis instans photon menggunakan DBU pada tingkat yang berbeda dari jenis instans yang sama yang menjalankan runtime non-Photon. Untuk informasi lebih lanjut tentang instans Photon dan konsumsi DBU, lihat halaman harga Azure Databricks.
Operator, ekspresi, dan jenis data yang didukung
Berikut ini adalah operator, ekspresi, dan jenis data yang dicakup Photon.
Operator
- Pindai, Filter, Proyeksi
- Hash Agregat/Gabung/Acak
- gabungan Nested-Loop
- Null-Aware Penggabungan Anti
- Gabungan, Perluasan, ScalarSubquery
- Penulisan Sink Delta/Parquet
- Urutkan
- Fungsi Jendela
Ekspresi
- Perbandingan/Logika
- Aritmatika/Matematika (paling banyak)
- Kondisional (IF, CASE, dll.)
- String (yang umum)
- Menyiarkan
- Agregat-agregat yang paling umum
- Tanggal/Stempel waktu
Jenis data
- Byte/Pendek/Int/Panjang
- Boolean
- String/Biner
- Desimal
- Float/Double
- Tanggal/Stempel waktu
- Struktur
- Array
- Peta
Fitur yang memerlukan Photon
Berikut ini adalah fitur yang memerlukan Photon.
- I/O prediktif untuk baca dan tulis. Lihat Apa itu I/O prediktif?.
- Pemangkasan file dinamis dalam pernyataan
MERGE,UPDATE, danDELETE. Lihat Pemangkasan file dinamis.
Batasan
- Streaming Terstruktur: Photon saat ini mendukung streaming stateless dengan Delta, Parquet, CSV, dan JSON. Streaming tanpa status menggunakan Kafka dan Kinesis didukung saat menulis ke sink Delta atau Parquet.
- Photon tidak mendukung UDF, API RDD, atau API Himpunan Data.
- Photon tidak memengaruhi permintaan yang biasanya memakan waktu kurang dari dua detik.
Jika beban kerja Anda mencapai operasi yang tidak didukung, sumber daya komputasi beralih ke mesin runtime standar untuk sisa beban kerja.