Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Item-item yang ditandai (pratinjau) dalam artikel ini saat ini sedang berada dalam pratinjau publik. Pratinjau ini disediakan tanpa kesepakatan tingkat layanan, dan kami tidak merekomendasikannya untuk penggunaan dalam lingkungan produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk informasi lebih lanjut, lihat Supplemental Terms of Use for Microsoft Azure Previews.
Di dunia berbasis AI saat ini, Generative AI Operations (GenAIOps) merevolusi bagaimana organisasi membangun dan menyebarkan sistem cerdas. Ketika perusahaan semakin menggunakan AI untuk mengubah pengambilan keputusan, meningkatkan pengalaman pelanggan, dan inovasi bahan bakar, satu elemen sangat penting: kerangka kerja evaluasi yang kuat. Evaluasi bukan hanya titik pemeriksaan. Ini adalah fondasi kepercayaan pada aplikasi AI. Tanpa penilaian yang ketat, sistem AI dapat menghasilkan konten yang:
- Rekayasa atau tidak berlandaskan realitas
- Tidak relevan atau tidak sesuai dengan kebutuhan pengguna
- Berbahaya dalam melanggengkan risiko konten dan stereotip
- Berbahaya dalam menyebarkan informasi yang salah
- Rentan terhadap eksploitasi keamanan
Di sinilah evaluator menjadi penting. Alat khusus ini mengukur frekuensi dan tingkat keparahan risiko dalam output AI, memungkinkan tim untuk secara sistematis mengatasi masalah kualitas, keselamatan, dan keamanan di seluruh perjalanan pengembangan AI—mulai dari memilih model yang tepat hingga memantau performa produksi, kualitas, dan keamanan.
Apa itu evaluator?
Evaluator adalah alat khusus yang mengukur kualitas, keamanan, dan keandalan respons AI. Dengan menerapkan evaluasi sistematis di seluruh siklus hidup pengembangan AI, tim dapat mengidentifikasi dan mengatasi potensi masalah sebelum berdampak pada pengguna. Evaluator yang didukung berikut memberikan kemampuan penilaian yang komprehensif di berbagai jenis dan kekhawatiran aplikasi AI:
RAG (Retrieval Augmented Generation):
Penilai | Tujuan |
---|---|
Pemulihan | Mengukur seberapa efektif sistem mengambil informasi yang relevan. |
Pengambilan Dokumen | Mengukur akurasi dalam pengambilan hasil yang diberikan kebenaran dasar. |
Keterhubungan dengan kenyataan | Mengukur seberapa konsisten respons sehubungan dengan konteks yang diambil. |
Groundedness Pro | Mengukur apakah respons konsisten sehubungan dengan konteks yang diambil. |
Relevansi | Mengukur seberapa relevan respons sehubungan dengan kueri. |
Kelengkapan Respons | Mengukur sejauh mana respons selesai (tidak kehilangan informasi penting) sehubungan dengan kebenaran dasar. |
Penilai | Tujuan |
---|---|
Resolusi Maksud | Mengukur seberapa akurat agen mengidentifikasi dan menangani niat pengguna. |
Ketaatan Tugas | Mengukur seberapa baik agen mengikuti tugas yang diidentifikasi. |
Ketepatan Panggilan Alat | Mengukur seberapa baik agen memilih dan memanggil alat yang benar. |
Penilai | Tujuan |
---|---|
Kefasihan | Mengukur kualitas bahasa alami dan keterbacaan. |
Koherensi | Mengukur konsistensi logis dan alur respons. |
Penjaminan Kualitas (QA) | Mengukur berbagai aspek kualitas secara komprehensif dalam jawaban atas pertanyaan. |
Keselamatan dan Keamanan (pratinjau):
Penilai | Tujuan |
---|---|
Kekerasan | Mendeteksi konten kekerasan atau hasatan. |
Seksual | Mengidentifikasi konten seksual yang tidak pantas. |
Melukai Diri Sendiri | Mendeteksi konten yang mempromosikan atau menjelaskan bahaya diri sendiri. |
Kebencian dan Ketidakadilan | Mengidentifikasi konten bias, diskriminasi, atau penuh kebencian. |
Atribut Tidak Berdasar | Mendeteksi informasi yang dibuat atau dihalusinasi yang disimpulkan dari interaksi pengguna. |
Kerentanan Kode | Mengidentifikasi masalah keamanan dalam kode yang dihasilkan. |
Bahan yang Dilindungi | Mendeteksi penggunaan konten yang dilindungi hak cipta atau tidak sah. |
Keamanan Konten | Penilaian komprehensif terhadap berbagai masalah keselamatan. |
Penilai | Tujuan |
---|---|
Kesamaan | Pengukuran kesamaan tekstual yang dibantu AI. |
Skor F1 | Rata-rata harmonik presisi dan pengenalan dalam token tumpang tindih antara respons dan kebenaran dasar. |
BLEU | Skor Evaluasi Bilingual untuk mengukur kualitas terjemahan berdasarkan tumpang tindih dalam n-gram antara respon dan data akurat. |
GLEU | Google-BLEU varian untuk pengukuran penilaian tingkat kalimat tumpang tindih dalam n-gram antara respons dan kebenaran dasar. |
ROUGE | Recall-Oriented Pengganti untuk Langkah-langkah Evaluasi Gisting mengukur tumpang tindih dalam n-gram antara respons dan kebenaran yang sesungguhnya. |
meteor | Metrik untuk Evaluasi Terjemahan dengan Urutan Eksplisit mengukur tumpang tindih dalam n-gram antara respons dan referensi. |
Azure OpenAI Graders (pratinjau):
Penilai | Tujuan |
---|---|
Pelabelan Model | Mengklasifikasikan konten menggunakan pedoman dan label kustom. |
Penilai Model | Menghasilkan skor numerik (rentang yang disesuaikan) untuk konten berdasarkan panduan kustom. |
Pemeriksa String | Melakukan validasi teks fleksibel dan pencocokan pola. |
Kesamaan Tekstual | Mengevaluasi kualitas teks atau menentukan kedekatan semantik. |
Dengan menggunakan evaluator ini secara strategis di seluruh siklus hidup pengembangan, tim dapat membangun aplikasi AI yang lebih andal, aman, dan efektif yang memenuhi kebutuhan pengguna sambil meminimalkan potensi risiko.
Tiga tahap evaluasi GenAIOps
Pemilihan model dasar
Sebelum membangun aplikasi, Anda perlu memilih fondasi yang tepat. Evaluasi awal ini membantu Anda membandingkan model yang berbeda berdasarkan:
- Kualitas dan akurasi: Seberapa relevan dan koheren respons model?
- Performa tugas: Apakah model menangani kasus penggunaan spesifik Anda secara efisien?
- Pertimbangan etis: Apakah model bebas dari bias berbahaya?
- Profil keamanan: Apa risiko menghasilkan konten yang tidak aman?
Alat yang tersedia: Tolok ukur Azure AI Foundry untuk membandingkan model pada himpunan data publik atau data Anda sendiri, dan Azure AI Evaluation SDK untuk menguji titik akhir model tertentu.
Evaluasi pra-produksi
Setelah Anda memilih model dasar, langkah selanjutnya adalah mengembangkan aplikasi AI—seperti chatbot yang didukung AI, aplikasi generasi berbasis pemulihan (RAG), aplikasi AI yang bersifat agenik, atau alat AI generatif lainnya. Setelah pengembangan selesai, evaluasi pra-produksi dimulai. Sebelum menyebarkan ke lingkungan produksi, pengujian menyeluruh sangat penting untuk memastikan model siap untuk penggunaan dunia nyata.
Evaluasi pra-produksi melibatkan:
- Pengujian dengan himpunan data evaluasi: Himpunan data ini mensimulasikan interaksi pengguna yang realistis untuk memastikan aplikasi AI berfungsi seperti yang diharapkan.
- Mengidentifikasi kasus tepi: Menemukan skenario di mana kualitas respons aplikasi AI mungkin menurunkan atau menghasilkan output yang tidak diinginkan.
- Menilai ketahanan: Memastikan bahwa model dapat menangani berbagai variasi input tanpa penurunan kualitas atau keamanan yang signifikan.
- Mengukur metrik utama: Metrik seperti dasar respons, relevansi, dan keamanan dievaluasi untuk mengonfirmasi kesiapan produksi.
Tahap pra-produksi bertindak sebagai pemeriksaan kualitas akhir, mengurangi risiko penyebaran aplikasi AI yang tidak memenuhi standar performa atau keamanan yang diinginkan.
Alat dan Pendekatan Evaluasi:
- Bawa data Anda sendiri: Anda dapat mengevaluasi aplikasi AI Anda dalam pra-produksi menggunakan data evaluasi Anda sendiri dengan evaluator yang didukung, termasuk kualitas pembuatan, keamanan, atau evaluator kustom, dan melihat hasil melalui portal Azure AI Foundry. Gunakan wizard evaluasi Azure AI Foundry atau evaluator yang didukung oleh Azure AI Evaluation SDK, termasuk kualitas pembuatan, keamanan, serta evaluator kustom, dan lihat hasil melalui portal Azure AI Foundry.
- Simulator dan agen red teaming AI (pratinjau): Jika Anda tidak memiliki data evaluasi (data pengujian), simulator Azure AI Evaluation SDK dapat membantu dengan menghasilkan kueri terkait topik atau kueri advesarial. Simulator ini menguji respons model terhadap kueri yang sesuai situasi atau menyerupai ancaman (kasus tepi).
- Simulator musuh menyuntikkan kueri statis yang meniru potensi risiko keselamatan atau serangan keamanan seperti atau mencoba jailbreak, membantu mengidentifikasi batasan dan menyiapkan model untuk kondisi yang tidak terduga.
- Simulator yang sesuai konteks menghasilkan percakapan yang khas dan relevan yang Anda harapkan dari pengguna untuk menguji kualitas respons. Dengan simulator yang sesuai konteks, Anda dapat menilai metrik seperti groundedness, relevansi, koherensi, dan kefasihan respons yang dihasilkan.
- Agen tim merah AI (pratinjau) mensimulasikan serangan musuh yang kompleks terhadap sistem AI Anda menggunakan berbagai serangan keselamatan dan keamanan menggunakan kerangka kerja terbuka Microsoft untuk Python Risk Identification Tool atau PyRIT. Pemindaian otomatis dengan menggunakan agen red teaming AI meningkatkan penilaian risiko pra-produksi dengan secara sistematis menguji aplikasi AI terhadap risiko. Proses ini melibatkan skenario serangan yang disimulasikan untuk mengidentifikasi kelemahan dalam respons model sebelum penyebaran dunia nyata. Dengan menjalankan pemindaian tim merah AI, Anda dapat mendeteksi dan mengurangi potensi masalah keselamatan sebelum penyebaran. Alat ini direkomendasikan untuk digunakan dengan proses human-in-the-loop seperti pengecekan oleh tim merah AI konvensional untuk membantu mempercepat identifikasi risiko dan membantu dalam penilaian oleh pakar ahli.
Atau, Anda juga dapat menggunakan widget evaluasi portal Azure AI Foundry untuk menguji aplikasi AI generatif Anda.
Setelah hasil yang memuaskan tercapai, aplikasi AI dapat disebarkan ke produksi.
Pemantauan pasca-produksi
Setelah penyebaran, pemantauan berkelanjutan memastikan aplikasi AI Anda mempertahankan kualitas dalam kondisi dunia nyata:
- Pelacakan performa: Pengukuran metrik utama secara teratur.
- Respons insiden: Tindakan cepat saat output yang berbahaya atau tidak pantas terjadi.
Pemantauan yang efektif membantu menjaga kepercayaan pengguna dan memungkinkan penyelesaian masalah yang cepat.
Azure AI Foundry Observability menyediakan kemampuan pemantauan komprehensif yang penting untuk lanskap AI yang kompleks dan berkembang pesat saat ini. Terintegrasi tanpa hambatan dengan Azure Monitor Application Insights, solusi ini memungkinkan pemantauan berkelanjutan aplikasi AI yang disebarkan untuk memastikan performa, keamanan, dan kualitas yang optimal di lingkungan produksi. Dasbor Foundry Observability memberikan wawasan real-time tentang metrik penting, memungkinkan tim mengidentifikasi dan mengatasi masalah performa, masalah keselamatan, atau penurunan kualitas dengan cepat. Untuk aplikasi berbasis Agen, Foundry menawarkan kemampuan evaluasi berkelanjutan yang ditingkatkan yang dapat diaktifkan untuk memberikan visibilitas yang lebih dalam ke metrik kualitas dan keamanan, menciptakan ekosistem pemantauan yang kuat yang beradaptasi dengan sifat dinamis aplikasi AI sambil mempertahankan standar performa dan keandalan yang tinggi.
Dengan terus memantau perilaku aplikasi AI dalam produksi, Anda dapat mempertahankan pengalaman pengguna berkualitas tinggi dan dengan cepat mengatasi masalah apa pun yang muncul.
Membangun kepercayaan melalui evaluasi sistematis
GenAIOps menetapkan proses yang dapat diandalkan untuk mengelola aplikasi AI sepanjang siklus hidupnya. Dengan menerapkan evaluasi menyeluruh di setiap tahap—dari pemilihan model melalui penyebaran dan seterusnya—tim dapat membuat solusi AI yang tidak hanya kuat tetapi dapat dipercaya dan aman.
Lembar Contekan Evaluasi
Tujuan | Proses | Parameter-parameternya |
---|---|---|
Untuk apa Anda mengevaluasi? | Mengidentifikasi atau membangun evaluator yang relevan |
-
Notebook sampel kualitas dan performa - Kualitas Respons Agen - Keselamatan dan Keamanan (buku catatan sampel Keselamatan dan Keamanan) - Kustom (Buku catatan sampel kustom) |
Data apa yang harus Anda gunakan? | Mengunggah atau menghasilkan himpunan data yang relevan |
Simulator generik untuk mengukur Kualitas dan Performa (Notebook sampel simulator generik) - Simulator lawan untuk mengukur keselamatan dan keamanan (Buku catatan contoh simulator lawan) Agen tim merah AI untuk menjalankan pemindaian otomatis untuk menilai kerentanan keamanan dan keselamatan (buku catatan sampel agen tim merah AI) |
Sumber daya apa yang harus melakukan evaluasi? | Jalankan evaluasi |
-
Eksekusi lokal - Menjalankan awan jarak jauh |
Bagaimana performa model/aplikasi saya? | Menganalisis hasil | Lihat skor agregat, lihat detail, detail skor, bandingkan pelaksanaan evaluasi |
Bagaimana cara meningkatkan? | Membuat perubahan pada model, aplikasi, atau evaluator | - Jika hasil evaluasi tidak selaras dengan umpan balik manusia, sesuaikan evaluator Anda. - Jika hasil evaluasi selaras dengan umpan balik manusia tetapi tidak memenuhi ambang kualitas/keamanan, terapkan mitigasi yang ditargetkan. Contoh mitigasi yang akan diterapkan: Keamanan Konten Azure AI |
Dukungan wilayah
Saat ini evaluator yang dibantu AI tertentu hanya tersedia di wilayah berikut:
Wilayah | Kebencian dan ketidakadilan, Seksual, Kekerasan, Melukai Diri Sendiri, Serangan tidak langsung, Kerentanan kode, Atribut tanpa dasar | Groundedness Pro | Bahan yang dilindungi |
---|---|---|---|
Amerika Serikat Timur 2 | Didukung | Didukung | Didukung |
Swedia Tengah | Didukung | Didukung | Tidak tersedia |
Tengah Utara AS | Didukung | Tidak tersedia | Tidak tersedia |
Prancis Tengah | Didukung | Tidak tersedia | Tidak tersedia |
Swiss bagian barat | Didukung | Tidak tersedia | Tidak tersedia |
Penetapan Harga
Fitur pengamatan seperti Evaluasi Risiko dan Keselamatan dan Evaluasi Berkelanjutan ditagih berdasarkan konsumsi seperti yang tercantum di halaman harga Azure kami. Pilih tab berlabel Complete AI Toolchain untuk melihat detail harga untuk evaluasi.