Keterpantauan dalam AI generatif

2025-05-19

Penting

Item-item yang ditandai (pratinjau) dalam artikel ini saat ini sedang berada dalam pratinjau publik. Pratinjau ini disediakan tanpa kesepakatan tingkat layanan, dan kami tidak merekomendasikannya untuk penggunaan dalam lingkungan produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk informasi lebih lanjut, lihat Supplemental Terms of Use for Microsoft Azure Previews.

Di dunia berbasis AI saat ini, Generative AI Operations (GenAIOps) merevolusi bagaimana organisasi membangun dan menyebarkan sistem cerdas. Ketika perusahaan semakin menggunakan AI untuk mengubah pengambilan keputusan, meningkatkan pengalaman pelanggan, dan inovasi bahan bakar, satu elemen sangat penting: kerangka kerja evaluasi yang kuat. Evaluasi bukan hanya titik pemeriksaan. Ini adalah fondasi kepercayaan pada aplikasi AI. Tanpa penilaian yang ketat, sistem AI dapat menghasilkan konten yang:

Rekayasa atau tidak berlandaskan realitas
Tidak relevan atau tidak sesuai dengan kebutuhan pengguna
Berbahaya dalam melanggengkan risiko konten dan stereotip
Berbahaya dalam menyebarkan informasi yang salah
Rentan terhadap eksploitasi keamanan

Di sinilah evaluator menjadi penting. Alat khusus ini mengukur frekuensi dan tingkat keparahan risiko dalam output AI, memungkinkan tim untuk secara sistematis mengatasi masalah kualitas, keselamatan, dan keamanan di seluruh perjalanan pengembangan AI—mulai dari memilih model yang tepat hingga memantau performa produksi, kualitas, dan keamanan.

Apa itu evaluator?

Evaluator adalah alat khusus yang mengukur kualitas, keamanan, dan keandalan respons AI. Dengan menerapkan evaluasi sistematis di seluruh siklus hidup pengembangan AI, tim dapat mengidentifikasi dan mengatasi potensi masalah sebelum berdampak pada pengguna. Evaluator yang didukung berikut memberikan kemampuan penilaian yang komprehensif di berbagai jenis dan kekhawatiran aplikasi AI:

RAG (Retrieval Augmented Generation):

Penilai	Tujuan
Pemulihan	Mengukur seberapa efektif sistem mengambil informasi yang relevan.
Pengambilan Dokumen	Mengukur akurasi dalam pengambilan hasil yang diberikan kebenaran dasar.
Keterhubungan dengan kenyataan	Mengukur seberapa konsisten respons sehubungan dengan konteks yang diambil.
Groundedness Pro	Mengukur apakah respons konsisten sehubungan dengan konteks yang diambil.
Relevansi	Mengukur seberapa relevan respons sehubungan dengan kueri.
Kelengkapan Respons	Mengukur sejauh mana respons selesai (tidak kehilangan informasi penting) sehubungan dengan kebenaran dasar.

Agen (pratinjau):

Penilai	Tujuan
Resolusi Maksud	Mengukur seberapa akurat agen mengidentifikasi dan menangani niat pengguna.
Ketaatan Tugas	Mengukur seberapa baik agen mengikuti tugas yang diidentifikasi.
Ketepatan Panggilan Alat	Mengukur seberapa baik agen memilih dan memanggil alat yang benar.

Tujuan Umum:

Penilai	Tujuan
Kefasihan	Mengukur kualitas bahasa alami dan keterbacaan.
Koherensi	Mengukur konsistensi logis dan alur respons.
Penjaminan Kualitas (QA)	Mengukur berbagai aspek kualitas secara komprehensif dalam jawaban atas pertanyaan.

Keselamatan dan Keamanan (pratinjau):

Penilai	Tujuan
Kekerasan	Mendeteksi konten kekerasan atau hasatan.
Seksual	Mengidentifikasi konten seksual yang tidak pantas.
Melukai Diri Sendiri	Mendeteksi konten yang mempromosikan atau menjelaskan bahaya diri sendiri.
Kebencian dan Ketidakadilan	Mengidentifikasi konten bias, diskriminasi, atau penuh kebencian.
Atribut Tidak Berdasar	Mendeteksi informasi yang dibuat atau dihalusinasi yang disimpulkan dari interaksi pengguna.
Kerentanan Kode	Mengidentifikasi masalah keamanan dalam kode yang dihasilkan.
Bahan yang Dilindungi	Mendeteksi penggunaan konten yang dilindungi hak cipta atau tidak sah.
Keamanan Konten	Penilaian komprehensif terhadap berbagai masalah keselamatan.

Kesamaan Tekstual:

Penilai	Tujuan
Kesamaan	Pengukuran kesamaan tekstual yang dibantu AI.
Skor F1	Rata-rata harmonik presisi dan pengenalan dalam token tumpang tindih antara respons dan kebenaran dasar.
BLEU	Skor Evaluasi Bilingual untuk mengukur kualitas terjemahan berdasarkan tumpang tindih dalam n-gram antara respon dan data akurat.
GLEU	Google-BLEU varian untuk pengukuran penilaian tingkat kalimat tumpang tindih dalam n-gram antara respons dan kebenaran dasar.
ROUGE	Recall-Oriented Pengganti untuk Langkah-langkah Evaluasi Gisting mengukur tumpang tindih dalam n-gram antara respons dan kebenaran yang sesungguhnya.
meteor	Metrik untuk Evaluasi Terjemahan dengan Urutan Eksplisit mengukur tumpang tindih dalam n-gram antara respons dan referensi.

Azure OpenAI Graders (pratinjau):

Penilai	Tujuan
Pelabelan Model	Mengklasifikasikan konten menggunakan pedoman dan label kustom.
Penilai Model	Menghasilkan skor numerik (rentang yang disesuaikan) untuk konten berdasarkan panduan kustom.
Pemeriksa String	Melakukan validasi teks fleksibel dan pencocokan pola.
Kesamaan Tekstual	Mengevaluasi kualitas teks atau menentukan kedekatan semantik.

Dengan menggunakan evaluator ini secara strategis di seluruh siklus hidup pengembangan, tim dapat membangun aplikasi AI yang lebih andal, aman, dan efektif yang memenuhi kebutuhan pengguna sambil meminimalkan potensi risiko.

Tiga tahap evaluasi GenAIOps

Pemilihan model dasar

Sebelum membangun aplikasi, Anda perlu memilih fondasi yang tepat. Evaluasi awal ini membantu Anda membandingkan model yang berbeda berdasarkan:

Kualitas dan akurasi: Seberapa relevan dan koheren respons model?
Performa tugas: Apakah model menangani kasus penggunaan spesifik Anda secara efisien?
Pertimbangan etis: Apakah model bebas dari bias berbahaya?
Profil keamanan: Apa risiko menghasilkan konten yang tidak aman?

Alat yang tersedia: Tolok ukur Azure AI Foundry untuk membandingkan model pada himpunan data publik atau data Anda sendiri, dan Azure AI Evaluation SDK untuk menguji titik akhir model tertentu.

Evaluasi pra-produksi

Setelah Anda memilih model dasar, langkah selanjutnya adalah mengembangkan aplikasi AI—seperti chatbot yang didukung AI, aplikasi generasi berbasis pemulihan (RAG), aplikasi AI yang bersifat agenik, atau alat AI generatif lainnya. Setelah pengembangan selesai, evaluasi pra-produksi dimulai. Sebelum menyebarkan ke lingkungan produksi, pengujian menyeluruh sangat penting untuk memastikan model siap untuk penggunaan dunia nyata.

Evaluasi pra-produksi melibatkan:

Pengujian dengan himpunan data evaluasi: Himpunan data ini mensimulasikan interaksi pengguna yang realistis untuk memastikan aplikasi AI berfungsi seperti yang diharapkan.
Mengidentifikasi kasus tepi: Menemukan skenario di mana kualitas respons aplikasi AI mungkin menurunkan atau menghasilkan output yang tidak diinginkan.
Menilai ketahanan: Memastikan bahwa model dapat menangani berbagai variasi input tanpa penurunan kualitas atau keamanan yang signifikan.
Mengukur metrik utama: Metrik seperti dasar respons, relevansi, dan keamanan dievaluasi untuk mengonfirmasi kesiapan produksi.

Tahap pra-produksi bertindak sebagai pemeriksaan kualitas akhir, mengurangi risiko penyebaran aplikasi AI yang tidak memenuhi standar performa atau keamanan yang diinginkan.

Alat dan Pendekatan Evaluasi:

Bawa data Anda sendiri: Anda dapat mengevaluasi aplikasi AI Anda dalam pra-produksi menggunakan data evaluasi Anda sendiri dengan evaluator yang didukung, termasuk kualitas pembuatan, keamanan, atau evaluator kustom, dan melihat hasil melalui portal Azure AI Foundry. Gunakan wizard evaluasi Azure AI Foundry atau evaluator yang didukung oleh Azure AI Evaluation SDK, termasuk kualitas pembuatan, keamanan, serta evaluator kustom, dan lihat hasil melalui portal Azure AI Foundry.
Simulator dan agen red teaming AI (pratinjau): Jika Anda tidak memiliki data evaluasi (data pengujian), simulator Azure AI Evaluation SDK dapat membantu dengan menghasilkan kueri terkait topik atau kueri advesarial. Simulator ini menguji respons model terhadap kueri yang sesuai situasi atau menyerupai ancaman (kasus tepi).
- Simulator musuh menyuntikkan kueri statis yang meniru potensi risiko keselamatan atau serangan keamanan seperti atau mencoba jailbreak, membantu mengidentifikasi batasan dan menyiapkan model untuk kondisi yang tidak terduga.
- Simulator yang sesuai konteks menghasilkan percakapan yang khas dan relevan yang Anda harapkan dari pengguna untuk menguji kualitas respons. Dengan simulator yang sesuai konteks, Anda dapat menilai metrik seperti groundedness, relevansi, koherensi, dan kefasihan respons yang dihasilkan.
- Agen tim merah AI (pratinjau) mensimulasikan serangan musuh yang kompleks terhadap sistem AI Anda menggunakan berbagai serangan keselamatan dan keamanan menggunakan kerangka kerja terbuka Microsoft untuk Python Risk Identification Tool atau PyRIT. Pemindaian otomatis dengan menggunakan agen red teaming AI meningkatkan penilaian risiko pra-produksi dengan secara sistematis menguji aplikasi AI terhadap risiko. Proses ini melibatkan skenario serangan yang disimulasikan untuk mengidentifikasi kelemahan dalam respons model sebelum penyebaran dunia nyata. Dengan menjalankan pemindaian tim merah AI, Anda dapat mendeteksi dan mengurangi potensi masalah keselamatan sebelum penyebaran. Alat ini direkomendasikan untuk digunakan dengan proses human-in-the-loop seperti pengecekan oleh tim merah AI konvensional untuk membantu mempercepat identifikasi risiko dan membantu dalam penilaian oleh pakar ahli.

Atau, Anda juga dapat menggunakan widget evaluasi portal Azure AI Foundry untuk menguji aplikasi AI generatif Anda.

Setelah hasil yang memuaskan tercapai, aplikasi AI dapat disebarkan ke produksi.

Pemantauan pasca-produksi

Setelah penyebaran, pemantauan berkelanjutan memastikan aplikasi AI Anda mempertahankan kualitas dalam kondisi dunia nyata:

Pelacakan performa: Pengukuran metrik utama secara teratur.
Respons insiden: Tindakan cepat saat output yang berbahaya atau tidak pantas terjadi.

Pemantauan yang efektif membantu menjaga kepercayaan pengguna dan memungkinkan penyelesaian masalah yang cepat.

Azure AI Foundry Observability menyediakan kemampuan pemantauan komprehensif yang penting untuk lanskap AI yang kompleks dan berkembang pesat saat ini. Terintegrasi tanpa hambatan dengan Azure Monitor Application Insights, solusi ini memungkinkan pemantauan berkelanjutan aplikasi AI yang disebarkan untuk memastikan performa, keamanan, dan kualitas yang optimal di lingkungan produksi. Dasbor Foundry Observability memberikan wawasan real-time tentang metrik penting, memungkinkan tim mengidentifikasi dan mengatasi masalah performa, masalah keselamatan, atau penurunan kualitas dengan cepat. Untuk aplikasi berbasis Agen, Foundry menawarkan kemampuan evaluasi berkelanjutan yang ditingkatkan yang dapat diaktifkan untuk memberikan visibilitas yang lebih dalam ke metrik kualitas dan keamanan, menciptakan ekosistem pemantauan yang kuat yang beradaptasi dengan sifat dinamis aplikasi AI sambil mempertahankan standar performa dan keandalan yang tinggi.

Dengan terus memantau perilaku aplikasi AI dalam produksi, Anda dapat mempertahankan pengalaman pengguna berkualitas tinggi dan dengan cepat mengatasi masalah apa pun yang muncul.

Membangun kepercayaan melalui evaluasi sistematis

GenAIOps menetapkan proses yang dapat diandalkan untuk mengelola aplikasi AI sepanjang siklus hidupnya. Dengan menerapkan evaluasi menyeluruh di setiap tahap—dari pemilihan model melalui penyebaran dan seterusnya—tim dapat membuat solusi AI yang tidak hanya kuat tetapi dapat dipercaya dan aman.

Lembar Contekan Evaluasi

Tujuan	Proses	Parameter-parameternya
Untuk apa Anda mengevaluasi?	Mengidentifikasi atau membangun evaluator yang relevan	- Notebook sampel kualitas dan performa - Kualitas Respons Agen - Keselamatan dan Keamanan (buku catatan sampel Keselamatan dan Keamanan) - Kustom (Buku catatan sampel kustom)
Data apa yang harus Anda gunakan?	Mengunggah atau menghasilkan himpunan data yang relevan	Simulator generik untuk mengukur Kualitas dan Performa (Notebook sampel simulator generik) - Simulator lawan untuk mengukur keselamatan dan keamanan (Buku catatan contoh simulator lawan) Agen tim merah AI untuk menjalankan pemindaian otomatis untuk menilai kerentanan keamanan dan keselamatan (buku catatan sampel agen tim merah AI)
Sumber daya apa yang harus melakukan evaluasi?	Jalankan evaluasi	- Eksekusi lokal - Menjalankan awan jarak jauh
Bagaimana performa model/aplikasi saya?	Menganalisis hasil	Lihat skor agregat, lihat detail, detail skor, bandingkan pelaksanaan evaluasi
Bagaimana cara meningkatkan?	Membuat perubahan pada model, aplikasi, atau evaluator	- Jika hasil evaluasi tidak selaras dengan umpan balik manusia, sesuaikan evaluator Anda. - Jika hasil evaluasi selaras dengan umpan balik manusia tetapi tidak memenuhi ambang kualitas/keamanan, terapkan mitigasi yang ditargetkan. Contoh mitigasi yang akan diterapkan: Keamanan Konten Azure AI

Dukungan wilayah

Saat ini evaluator yang dibantu AI tertentu hanya tersedia di wilayah berikut:

Wilayah	Kebencian dan ketidakadilan, Seksual, Kekerasan, Melukai Diri Sendiri, Serangan tidak langsung, Kerentanan kode, Atribut tanpa dasar	Groundedness Pro	Bahan yang dilindungi
Amerika Serikat Timur 2	Didukung	Didukung	Didukung
Swedia Tengah	Didukung	Didukung	Tidak tersedia
Tengah Utara AS	Didukung	Tidak tersedia	Tidak tersedia
Prancis Tengah	Didukung	Tidak tersedia	Tidak tersedia
Swiss bagian barat	Didukung	Tidak tersedia	Tidak tersedia

Penetapan Harga

Fitur pengamatan seperti Evaluasi Risiko dan Keselamatan dan Evaluasi Berkelanjutan ditagih berdasarkan konsumsi seperti yang tercantum di halaman harga Azure kami. Pilih tab berlabel Complete AI Toolchain untuk melihat detail harga untuk evaluasi.