Memperkaya data menggunakan Fungsi AI

Penting

Fungsi AI adalah fungsi bawaan yang dapat Anda gunakan untuk menerapkan LLM atau teknik penelitian canggih pada data yang disimpan di Azure Databricks untuk transformasi dan pengayaan data. Mereka dapat dijalankan dari mana saja di Databricks, termasuk Databricks SQL, notebook, Lakeflow Spark Declarative Pipelines, dan Workflows.

Fungsi AI mudah digunakan, cepat, dan dapat diskalakan. Analis dapat menggunakannya untuk menerapkan kecerdasan data ke data milik mereka, sementara teknisi data, ilmuwan data, dan insinyur pembelajaran mesin dapat menggunakannya untuk membangun alur batch tingkat produksi.

Tugas spesifik dan tujuan umum

Fungsi AI memiliki fungsi khusus tugas dan tujuan umum:

Fungsi AI Khusus Tugas — Fungsi yang dibangun untuk tujuan tertentu dan dioptimalkan untuk tugas spesifik, seperti penguraian dokumen, ekstraksi entitas, klasifikasi, dan analisis sentimen. Fungsi-fungsi ini didukung oleh sistem research-back yang dikelola Azure Databricks. Beberapa fungsi termasuk pengalaman UI. Lihat Fungsi AI khusus tugas untuk fungsi dan model yang didukung.
ai_query — Fungsi tujuan umum untuk fleksibilitas tugas dan model. Berikan perintah dan pilih API Model Foundation yang didukung. Lihat Gunakan ai_query.

Pohon keputusan untuk fungsi AI khusus tugas dan ai_query

Fungsi AI khusus tugas

Fungsi khusus tugas dicakup untuk tugas tertentu sehingga Anda dapat mengotomatiskan transformasi rutin, seperti ekstraksi entitas, terjemahan, dan klasifikasi. Databricks merekomendasikan fungsi-fungsi ini untuk memulai karena mereka memanggil teknik penelitian canggih yang dikelola oleh Databricks dan tidak memerlukan penyesuaian apa pun.

Lihat Menganalisis ulasan pelanggan menggunakan AI Functions misalnya.

Fungsi berikut dikelompokkan menurut tugas.

Pemrosesan dokumen cerdas:

Fungsi	Deskripsi
ai_parse_document	Mengurai konten terstruktur (teks, tabel, deskripsi gambar) dan tata letak dari dokumen yang tidak terstruktur menggunakan teknik penelitian canggih.
ai_extract	Ekstrak bidang terstruktur dari dokumen atau teks menggunakan skema yang Anda tentukan.
ai_classify	Klasifikasikan teks input sesuai dengan label yang Anda sediakan menggunakan teknik penelitian canggih.
ai_prep_search	Ubah output dokumen yang diurai menjadi potongan siap pencarian yang dioptimalkan untuk pencarian vektor dan alur RAG.

Ubah teks:

Fungsi	Deskripsi
ai_fix_grammar	Memperbaiki kesalahan tata bahasa dalam teks menggunakan model AI generatif mutakhir.
ai_translate	Terjemahkan teks ke bahasa target tertentu menggunakan model AI generatif terdepan.
ai_summarize	Buat ringkasan teks dengan menggunakan model AI generatif terkini dan SQL.
ai_mask	Menutupi entitas yang ditentukan dalam teks menggunakan model AI generatif mutakhir.

Menganalisis teks:

Fungsi	Deskripsi
ai_analyze_sentiment	Lakukan analisis sentimen pada teks input menggunakan model AI generatif mutakhir.
ai_similarity	Bandingkan dua string dan hitung skor kesamaan semantik menggunakan model AI generatif mutakhir.

Hasilkan konten. Untuk perintah kustom atau model tertentu, lihat Menggunakan ai_query:

Fungsi	Deskripsi
ai_gen	Jawab permintaan yang disediakan pengguna menggunakan model AI generatif canggih.

Rangkaian waktu prakiraan:

Fungsi	Deskripsi
ai_forecast	Memperkirakan data hingga cakrawala tertentu. Fungsi bernilai tabel ini dirancang untuk mengekstrapolasi data rangkaian waktu ke masa depan.

Cari dengan penyematan Pencarian Vektor:

Fungsi	Deskripsi
vector_search	Cari dan kueri indeks Pencarian Vektor Mosaik AI menggunakan model AI generatif canggih.

Menggunakan Fungsi AI dalam alur kerja produksi

Untuk inferensi batch skala besar, Anda dapat mengintegrasikan Fungsi AI khusus tugas, atau fungsi ai_query tujuan umum ke dalam alur kerja produksi Anda, seperti Alur Deklaratif Lakeflow Spark, alur kerja Databricks, dan Streaming Terstruktur. Ini memungkinkan pemrosesan tingkat produksi dalam skala besar.

Praktik terbaik untuk fungsi AI dalam produksi:

Biarkan Fungsi AI menangani beban kerja Anda dalam skala besar: AI Functions secara otomatis mengelola paralelisasi, percobaan ulang, dan penskalaan. Disarankan untuk mengirimkan himpunan data lengkap Anda dalam satu kueri daripada membaginya secara manual menjadi batch kecil. Performa mungkin tidak menskalakan secara linier dari beban kerja yang sangat kecil ke beban kerja skala besar.

Gunakan model fondasi yang dihosting Databricks: Saat menggunakan Fungsi AI ai_query, gunakan model fondasi yang dihosting Databricks (diawali dengan databricks-), bukan throughput yang disediakan. Titik akhir tanpa provisi ini dikelola sepenuhnya dan berfungsi paling baik untuk pemrosesan batch.

Lihat Menyebarkan alur inferensi batch untuk contoh dan detailnya.

Memantau kemajuan Fungsi AI

Untuk memahami berapa banyak inferensi yang telah selesai atau gagal dan memecahkan masalah performa, Anda dapat memantau kemajuan Fungsi AI menggunakan fitur profil kueri.

Di Databricks Runtime 16.1 ML ke atas, dari jendela kueri editor SQL di ruang kerja Anda:

Pilih tautan Menjalankan--- di bagian bawah jendela Hasil Mentah. Jendela performa muncul di sebelah kanan.
Klik Lihat profil kueri untuk menampilkan detail performa.
Klik Kueri AI untuk melihat metrik untuk kueri tertentu tersebut termasuk jumlah inferensi yang selesai dan gagal dan total waktu yang diperlukan permintaan untuk diselesaikan.

Melihat biaya untuk beban kerja Fungsi AI

Biaya Fungsi AI dicatat sebagai bagian dari produk MODEL_SERVING di bawah jenis penawaran BATCH_INFERENCE. Lihat Menampilkan biaya untuk beban kerja inferensi batch untuk contoh kueri.

Nota

Untuk ai_parse_document, ai_extract, dan ai_classify, biaya dicatat sebagai bagian dari produk AI_FUNCTIONS. Lihat Menampilkan biaya untuk ai_parse_document eksekusi untuk contoh kueri.

Melihat biaya untuk beban kerja inferensi batch

Contoh berikut menunjukkan cara memfilter beban kerja inferensi batch berdasarkan pekerjaan, komputasi, gudang SQL, dan Alur Deklaratif Lakeflow Spark.

Lihat Pemantauan biaya penggunaan model untuk contoh umum tentang cara melihat biaya yang terkait dengan beban kerja inferensi batch milik Anda yang menggunakan fungsi AI.

Pekerjaan

Kueri berikut menunjukkan pekerjaan mana yang digunakan untuk inferensi batch menggunakan system.workflow.jobs tabel sistem. Lihat Pantau biaya dan performa pekerjaan dengan tabel sistem.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Berikut ini menunjukkan kluster mana yang digunakan untuk inferensi batch menggunakan system.compute.clusters tabel sistem.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Alur Deklaratif Lakeflow Spark

Berikut adalah alur deklaratif Lakeflow Spark yang digunakan untuk pemrosesan inferensi batch menggunakan tabel sistem system.lakeflow.pipelines.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Gudang SQL

Berikut ini menunjukkan gudang data SQL mana yang digunakan untuk inferensi batch dengan menggunakan tabel sistem system.compute.warehouses.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Lihat biaya untuk `ai_parse_document` eksekusi

Contoh berikut menunjukkan cara mengkueri tabel sistem penagihan untuk melihat biaya ai_parse_document yang dijalankan.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-19