Bagikan melalui


Menerapkan AI pada data menggunakan Azure Databricks AI Functions

Penting

Fitur ini ada di Pratinjau Umum.

Artikel ini menjelaskan Azure Databricks AI Functions dan fungsi yang didukung.

Apa itu Fungsi AI?

AI Functions adalah fungsi bawaan yang dapat Anda gunakan untuk menerapkan AI, seperti terjemahan teks atau analisis sentimen, pada data Anda yang disimpan di Databricks. Mereka dapat dijalankan dari mana saja di Databricks, termasuk Databricks SQL, notebook, Lakeflow Declarative Pipelines, dan Workflows.

Fungsi AI mudah digunakan, cepat, dan dapat diskalakan. Analis dapat menggunakannya untuk menerapkan kecerdasan data ke data milik mereka, sementara ilmuwan data dan insinyur pembelajaran mesin dapat menggunakannya untuk membangun alur batch tingkat produksi.

Fungsi AI menyediakan fungsi tujuan umum dan khusus tugas.

  • ai_query adalah fungsi tujuan umum yang memungkinkan Anda menerapkan semua jenis model AI pada data Anda. Lihat Fungsi tujuan umum: ai_query.
  • Fungsi khusus tugas menyediakan kemampuan AI tingkat tinggi untuk tugas seperti meringkas teks dan terjemahan. Fungsi-fungsi spesifik tugas ini didukung oleh model AI generatif mutakhir yang dihosting dan dikelola oleh Databricks. Lihat Fungsi AI khusus tugas untuk fungsi dan model yang didukung.

Fungsi tujuan umum: ai_query

Fungsi ai_query() memungkinkan Anda menerapkan model AI apa pun ke data untuk tugas AI generatif dan ML klasik, termasuk mengekstrak informasi, meringkas konten, mengidentifikasi penipuan, dan memperkirakan pendapatan. Untuk detail sintaks dan parameter, lihat ai_query fungsi.

Tabel berikut ini meringkas jenis model yang didukung, model terkait, dan model yang melayani persyaratan konfigurasi titik akhir untuk masing-masing jenis model yang didukung.

Tipe Model yang didukung Persyaratan
Model fondasi yang di-host oleh Databricks dan dioptimalkan untuk fungsi AI Model ini direkomendasikan untuk memulai skenario inferensi batch dan alur kerja produksi:
  • databricks-llama-4-maverick
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

Model lain yang dihosting oleh Databricks tersedia untuk digunakan dengan Fungsi AI, tetapi tidak disarankan untuk proses produksi inferensi batch berskala besar.
Databricks Runtime 15.4 LTS atau lebih tinggi diperlukan untuk menggunakan fungsionalitas ini. Tidak memerlukan penyediaan atau pengaturan titik akhir. Penggunaan Anda atas model ini tunduk pada lisensi dan persyaratan pengembang model yang berlaku danketersediaan wilayah AI Functions.
Model dasar yang dioptimalkan Model dasar yang dioptimalkan yang diterapkan pada Mosaic AI Model Serving Mengharuskan Anda membuat titik akhir throughput yang disediakan di Model Serving. Lihat ai_query dan model fondasi kustom atau yang disempurnakan.
Model dasar yang dihosting di luar Databricks Model yang tersedia dibuat menggunakan model eksternal . Lihat Model fondasi akses yang dihosting di luar Databricks. Mengharuskan Anda membuat model eksternal yang melayani titik akhir.
Model kustom tradisional ML dan DL Model ML atau DL tradisional apa pun, seperti scikit-learn, xgboost, atau PyTorch Mengharuskan Anda membuat model kustom yang melayani titik akhir.

Menggunakan ai_query dengan model fondasi

Contoh berikut menunjukkan cara menggunakan ai_query menggunakan model fondasi yang dihosting oleh Databricks.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Gunakan ai_query dengan model ML tradisional

ai_query mendukung model ML tradisional, termasuk model yang sepenuhnya kustom. Model ini harus disebarkan pada titik akhir Model Serving. Untuk detail sintaks dan parameter, lihat fungsi ai_query fungsi.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

Fungsi AI khusus tugas

Fungsi khusus tugas dicakup untuk tugas tertentu sehingga Anda dapat mengotomatiskan tindakan rutin, seperti ringkasan sederhana dan terjemahan cepat. Databricks merekomendasikan fungsi-fungsi ini untuk memulai karena mereka memanggil model AI generatif canggih yang dikelola oleh Databricks dan tidak memerlukan penyesuaian apa pun.

Lihat Menganalisis ulasan pelanggan menggunakan AI Functions misalnya.

Tabel berikut mencantumkan fungsi yang didukung dan tugas apa yang mereka lakukan masing-masing.

Fungsi Deskripsi
ai_analyze_sentiment Lakukan analisis sentimen pada teks input menggunakan model AI generatif mutakhir.
ai_classify Klasifikasikan teks masukan sesuai dengan label yang Anda sediakan menggunakan model AI generatif mutakhir.
ai_extract Ekstrak entitas yang ditentukan oleh label dari teks dengan menggunakan model AI generatif mutakhir.
ai_fix_grammar Memperbaiki kesalahan tata bahasa dalam teks menggunakan model AI generatif mutakhir.
ai_gen Jawab petunjuk yang diberikan pengguna dengan menggunakan model AI generatif mutakhir.
ai_mask Menutupi entitas yang ditentukan dalam teks menggunakan model AI generatif mutakhir.
ai_parse_document (Beta) Ekstrak konten terstruktur dari dokumen yang tidak terstruktur menggunakan model kecerdasan buatan generatif mutakhir.
ai_similarity Bandingkan dua string dan hitung skor kesamaan semantik menggunakan model AI generatif mutakhir.
ai_summarize Hasilkan ringkasan teks menggunakan SQL dan model AI generatif terkini.
ai_translate Terjemahkan teks ke bahasa target tertentu menggunakan model AI generatif terdepan.
ai_forecast Memperkirakan data hingga cakrawala tertentu. Fungsi bernilai tabel ini dirancang untuk mengekstrapolasi data rangkaian waktu ke masa depan.
vector_search Cari dan kueri indeks Pencarian Vektor Mosaik AI menggunakan model AI generatif canggih.

Menggunakan Fungsi AI dalam alur kerja Python yang ada

Fungsi AI dapat dengan mudah diintegrasikan dalam alur kerja Python yang ada.

Berikut ini menulis output ai_query ke tabel output:

df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Teks ringkasan berikut ditulis ke dalam tabel:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

Menggunakan Fungsi AI dalam alur kerja produksi

Untuk inferensi batch skala besar, Anda dapat mengintegrasikan fungsi AI khusus tugas, atau fungsi umum ai_query ke dalam alur kerja produksi Anda, seperti Lakeflow Alur Deklaratif, alur kerja Databricks, dan Streaming Terstruktur. Ini memungkinkan pemrosesan tingkat produksi dalam skala besar. Lihat Melakukan inferensi LLM batch menggunakan Fungsi AI untuk contoh dan detail.

Memantau kemajuan Fungsi AI

Untuk memahami berapa banyak inferensi yang telah selesai atau gagal dan memecahkan masalah performa, Anda dapat memantau kemajuan fungsi AI menggunakan fitur profil kueri.

Di Databricks Runtime 16.1 ML ke atas, dari jendela kueri editor SQL di ruang kerja Anda:

  1. Pilih tautan Menjalankan--- di bagian bawah jendela Hasil Mentah. Jendela performa muncul di sebelah kanan.
  2. Klik Lihat profil kueri untuk menampilkan detail performa.
  3. Klik Kueri AI untuk melihat metrik untuk kueri tertentu tersebut termasuk jumlah inferensi yang selesai dan gagal dan total waktu yang diperlukan permintaan untuk diselesaikan.

Memantau kemajuan Fungsi AI