Mengoptimalkan biaya dan performa model

Saat biaya model atau agen Anda mulai meningkat, gunakan Ask AI (pratinjau) untuk mendiagnosis masalah dengan cepat, mengambil tindakan, dan memverifikasi peningkatan. Ask AI adalah asisten obrolan bawaan yang dapat Anda akses dari toolbar di portal Microsoft Foundry. Untuk informasi selengkapnya tentang kemampuan dan batasan Tanya AI, lihat Tanya AI untuk bantuan (pratinjau).

Dalam artikel ini, Anda mengidentifikasi lonjakan biaya, beralih ke model hemat biaya, dan memvalidasi peningkatan performa dengan menggunakan portal Foundry.

Nota

Saat Anda meminta Ask AI untuk melakukan tugas yang mengubah sumber daya Azure Anda, seperti menyebarkan model atau mengubah konfigurasi penyebaran, Ask AI mengusulkan tindakan bagi Anda untuk meninjau dan menyetujuinya sebelum dijalankan. Anda dapat mengonfigurasi pengaturan persetujuan dengan memilih ikon pengaturan di obrolan permintaan Tanya AI. Untuk informasi selengkapnya, lihat Meminta bantuan AI (pratinjau).

Prasyarat

  • Izin berikut:

  • Application Insights dikonfigurasi untuk proyek Foundry Anda. Untuk informasi selengkapnya, lihat Mengonfigurasi pemantauan.

  • Setidaknya satu agen yang disebarkan atau diterbitkan dengan data biaya. Untuk analisis tren yang bermakna, Anda memerlukan minimal tujuh hari data penggunaan.

  • Agen Ask AI diaktifkan pada proyek Foundry Anda. Agen Ask AI tersedia sebagai pratinjau di toolbar portal Foundry. Jika Anda tidak melihatnya, verifikasi bahwa proyek Anda berada di wilayah yang didukung dan administrator Anda belum menonaktifkan fitur tersebut.

  • Himpunan data evaluasi yang mewakili beban kerja khas agen Anda. Gunakan himpunan data ini untuk membandingkan performa model setelah beralih model.

Mendeteksi peningkatan biaya

Mulailah dengan membuka agen Tanya AI dari toolbar. Atau, bukaGambaran Umum> untuk menggunakan salah satu perintah bawaan yang khusus untuk pengoptimalan dan performa agen.

Minta asisten untuk memberikan ringkasan metrik dan data biaya Anda dari dasbor Foundry Control Plane. Anda dapat memilih perintah yang telah ditentukan sebelumnya pada panel Gambaran Umum atau ketik pertanyaan Anda sendiri, seperti:

  • Rangkuman tren biaya terbaru saya.

  • "Agen mana yang paling berkontribusi pada peningkatan biaya saya?"

Agen Ask AI menghasilkan ringkasan yang menyoroti driver biaya utama, seperti penggunaan token tinggi, panjang penyelesaian yang lebih lama, atau evaluasi yang sering dijalankan. Ringkasan ini mencakup tautan anotasi ke bagan dasbor untuk inspeksi yang lebih mendalam.

Selidiki agen berbiaya tinggi

Setelah meninjau ringkasan, Anda dapat menjelajahi wawasan terperinci untuk agen tertentu dengan bertanya:

  • "Tunjukkan detail biaya dan performa untuk [nama agen]."

  • Uraikan biaya berdasarkan model atau penerapan untuk agen ini.

Anda juga dapat memilih Aset di panel kiri. Lalu, pilih Tampilkan detail Agen untuk menampilkan panel Aset . Di sana, Anda dapat membandingkan agen Anda dengan biaya dan penggunaan token, dan melihat agen mana yang paling mahal.

Beralih ke model hemat biaya

Saat Anda mengidentifikasi model sebagai penggerak biaya, gunakan fitur Tanya AI untuk menemukan alternatif yang lebih hemat biaya.

  1. Di Tanya AI, masukkan perintah seperti "Rekomendasikan model yang lebih murah dengan performa serupa" atau "Bandingkan biaya dan kualitas untuk model yang mirip dengan [model saat ini]."

  2. Tinjau responsnya. Ask AI merekomendasikan model alternatif dari katalog model dengan perbandingan performa dan biaya. Tinjau rekomendasi dan pilih model yang memenuhi kebutuhan Anda.

  3. Sebarkan model baru. Ask AI dapat menginisiasi penyebaran untuk Anda langsung di obrolan atau menyediakan tautan ke halaman penyebaran. Anda juga dapat menyebarkan secara manual. Untuk langkah-langkah penyebaran terperinci, lihat Menyebarkan Model Microsoft Foundry di portal Foundry atau Menyebarkan model menggunakan Azure CLI dan Bicep.

  4. Setelah penyebaran selesai, verifikasi bahwa model baru muncul di daftar penyebaran agen Anda dengan status Berhasil .

Petunjuk / Saran

Jika Tanya AI tidak tersedia, bandingkan model menggunakan papan peringkat model .

Mengevaluasi biaya model dan perbedaan kualitas

Setelah Anda beralih model, bandingkan model lama dan baru dengan menjalankan evaluasi.

  1. Di Tanya AI, masukkan perintah seperti "Saya ingin mengevaluasi dan membandingkan model lama dan baru."

  2. Ikuti panduan yang disediakan Ask AI. Untuk membuat putaran evaluasi, buka bagian evaluasi dari proyek Anda.

  3. Buat dua eksekusi evaluasi: satu untuk model asli dan satu untuk model baru.

  4. Tunggu hingga kedua proses evaluasi selesai. BukaGambaran Umum> atau riwayat evaluasi dalam proyek Anda untuk membandingkan hasil secara berdampingan.

  5. Cari perbedaan skor kualitas, latensi, dan biaya per token. Dalam riwayat evaluasi, verifikasi bahwa kedua eksekusi menunjukkan status selesai dengan skor untuk setiap metrik.

    Metrik utama untuk dibandingkan:

    • Groundedness — seberapa baik respons didasarkan pada data sumber
    • Relevansi — seberapa relevan respons terhadap kueri
    • Koherensi — bagaimana respons yang konsisten secara logis
    • Latensi — waktu respons untuk model
    • Biaya per token — efisiensi biaya model

    Fokus pada metrik yang selaras dengan persyaratan kualitas agen Anda.

Memperbarui penerapan model agen Anda

Saat Anda mengonfirmasi bahwa model baru memenuhi persyaratan biaya dan performa Anda, perbarui agen untuk menggunakannya.

  1. Di portal Foundry, buka Build>Agents.

  2. Pilih agen yang ingin Anda perbarui.

  3. Ubah model ke penyebaran baru.

  4. Uji agen untuk memverifikasi bahwa ia merespons dengan benar menggunakan model baru.

  5. Pada halaman detail agen, pilih Simpan untuk membuat versi baru. Verifikasi bahwa nomor versi bertahap dan nama model mencerminkan penyebaran baru.

Setelah Anda memverifikasi bahwa model baru berfungsi dengan benar, pertimbangkan untuk menghapus penyebaran model lama untuk menghindari biaya yang sedang berlangsung.

Melacak peningkatan biaya dan performa

Untuk memverifikasi peningkatan setelah peralihan model, periksa data biaya terbaru.

  1. Buka Tanya AI dari toolbar.

  2. Masukkan perintah seperti "Tampilkan ringkasan tentang data terbaru biaya."

  3. Tinjau ringkasan. Ask AI menampilkan data biaya dan kinerja yang tersedia di halaman Operasi>Gambaran Umum dan Monitor, termasuk metrik evaluasi berkelanjutan yang ditunjukkan di sana. Ringkasan menyoroti perubahan tren biaya dibandingkan dengan periode sebelumnya.

Gunakan alur kerja ini secara teratur untuk memantau efisiensi dan pengembalian investasi.

Pemecahan Masalah Umum

Masalah Penyebab Resolusi
Tidak ada data biaya yang muncul dalam ringkasan Application Insights tidak dikonfigurasi untuk proyek. Konfigurasikan pemantauan untuk proyek Foundry Anda.
Fitur Tanyakan AI tidak merespons perintah Fitur ini mungkin sementara tidak tersedia, atau prompt mungkin terlalu samar. Coba perintah yang lebih spesifik atau gunakan panel Operasikan>Gambaran Umum secara langsung.
Mintalah AI meminta persetujuan sebelum bertindak Ask AI menyarankan tindakan untuk ditinjau sebelum memodifikasi sumber daya Azure. Tinjau tindakan yang diusulkan dan pilih Setujui untuk melanjutkan. Untuk mengonfigurasi pengaturan pra-persetujuan, pilih ikon pengaturan di obrolan permintaan Tanya AI.
Tidak ada model alternatif yang direkomendasikan Model saat ini mungkin sudah menjadi opsi yang paling hemat biaya, atau katalog model tidak memiliki alternatif yang sebanding. Telusuri katalog model Foundry secara manual.
Evaluasi berjalan belum selesai Himpunan data evaluasi mungkin salah dikonfigurasi atau terlalu besar. Verifikasi konfigurasi himpunan data evaluasi Anda. Lihat Menjalankan evaluasi dari SDK.
Data biaya muncul kedaluarsa atau tertunda Azure data penagihan dapat memakan waktu hingga 24-48 jam untuk diperbarui. Telemetri Application Insights mungkin juga mengalami penundaan singkat. Tunggu hingga siklus penagihan selesai dan periksa lagi. Untuk data hampir real-time, bergantung pada metrik Application Insights di panelGambaran Umum>.
Pergantian model menyebabkan penurunan kualitas Model baru mungkin tidak berfungsi juga pada beban kerja spesifik Anda. Kembali ke penyebaran model sebelumnya dan jalankan evaluasi yang lebih ditargetkan sebelum beralih lagi.