Bagikan melalui


Metrik evaluasi dan pemantauan untuk AI generatif

Penting

Beberapa fitur yang dijelaskan dalam artikel ini mungkin hanya tersedia dalam pratinjau. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Azure AI Studio memungkinkan Anda mengevaluasi percakapan bergiliran tunggal atau kompleks dan multi-giliran di mana Anda membumikan model AI generatif dalam data spesifik Anda (juga dikenal sebagai Pengambilan Generasi Tertamahkan atau RAG). Anda juga dapat mengevaluasi skenario jawaban atas pertanyaan giliran tunggal umum, di mana tidak ada konteks yang digunakan untuk membumikan model AI generatif Anda (non-RAG). Saat ini, kami mendukung metrik bawaan untuk jenis tugas berikut:

Jawaban atas pertanyaan (giliran tunggal)

Dalam penyiapan ini, pengguna menimbulkan pertanyaan atau permintaan individual, dan model AI generatif digunakan untuk langsung menghasilkan respons.

Format set pengujian akan mengikuti format data ini:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Catatan

Bidang "konteks" dan "kebenaran dasar" bersifat opsional, dan metrik yang didukung bergantung pada bidang yang Anda berikan

Percakapan (belokan tunggal dan multi giliran)

Dalam konteks ini, pengguna terlibat dalam interaksi percakapan, baik melalui serangkaian giliran atau dalam satu pertukaran. Model AI generatif, dilengkapi dengan mekanisme pengambilan, menghasilkan respons dan dapat mengakses dan menggabungkan informasi dari sumber eksternal, seperti dokumen. Model Retrieval Augmented Generation (RAG) meningkatkan kualitas dan relevansi respons dengan menggunakan dokumen dan pengetahuan eksternal.

Format set pengujian akan mengikuti format data ini:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Metrik yang didukung

Seperti yang dijelaskan dalam metode untuk mengevaluasi model bahasa besar, ada pendekatan manual dan otomatis untuk pengukuran. Pengukuran otomatis berguna untuk mengukur dalam skala besar dengan peningkatan cakupan untuk memberikan hasil yang lebih komprehensif. Ini juga berguna untuk pengukuran yang sedang berlangsung untuk memantau regresi apa pun saat sistem, penggunaan, dan mitigasi berevolusi.

Kami mendukung dua metode utama untuk pengukuran otomatis aplikasi AI generatif:

  • Metrik pembelajaran mesin tradisional
  • Metrik yang dibantu AI

Metrik yang dibantu AI menggunakan model bahasa seperti GPT-4 untuk menilai output yang dihasilkan AI, terutama dalam situasi di mana jawaban yang diharapkan tidak tersedia karena tidak adanya kebenaran dasar yang ditentukan. Metrik pembelajaran mesin tradisional, seperti skor F1, mengukur presisi dan pengenalan antara respons yang dihasilkan AI dan jawaban yang diantisipasi.

Metrik yang dibantu AI kami menilai keamanan dan kualitas pembuatan aplikasi AI generatif. Metrik ini termasuk dalam dua kategori berbeda:

  • Metrik risiko dan keamanan:

    Metrik ini berfokus pada mengidentifikasi potensi risiko konten dan keamanan dan memastikan keamanan konten yang dihasilkan.

    Meliputi:

    • Tingkat kebencian dan cacat konten yang tidak adal
    • Tingkat cacat konten seksual
    • Tingkat cacat konten kekerasan
    • Tingkat cacat konten terkait bahaya mandiri
    • Tingkat cacat jailbreak
  • Metrik kualitas pembuatan:

    Metrik ini mengevaluasi kualitas keseluruhan dan koherensi konten yang dihasilkan.

    Meliputi:

    • Koherensi
    • Kelancaran
    • Groundedness
    • Relevansi
    • Skor pengambilan
    • Kesamaan

Kami mendukung metrik AI-Assisted berikut untuk jenis tugas di atas:

Jenis tugas Pertanyaan dan Jawaban yang Dihasilkan Saja (Tidak ada konteks atau kebenaran dasar yang diperlukan) Pertanyaan dan Jawaban yang Dihasilkan + Konteks Pertanyaan dan Jawaban yang Dihasilkan + Konteks + Kebenaran Dasar
Jawaban atas Pertanyaan - Metrik risiko dan keamanan (semua dibantu AI): tingkat cacat konten yang dibenci dan tidak adil, tingkat cacat konten seksual, tingkat cacat konten kekerasan, tingkat cacat konten terkait bahaya mandiri, dan tingkat cacat jailbreak
- Metrik kualitas generasi (semua Terbantu AI): Koherensi, Kefasihan
Metrik Kolom Sebelumnya
+
Metrik kualitas generasi (semua Terbantu AI):
- Groundedness
-Relevansi
Metrik Kolom Sebelumnya
+
Metrik kualitas pembuatan:
Kesamaan (dibantu AI)
F1-Score (metrik ML tradisional)
Percakapan - Metrik risiko dan keamanan (semua dibantu AI): tingkat cacat konten yang dibenci dan tidak adil, tingkat cacat konten seksual, tingkat cacat konten kekerasan, tingkat cacat konten terkait bahaya mandiri, dan tingkat cacat jailbreak
- Metrik kualitas generasi (semua Terbantu AI): Koherensi, Kefasihan
Metrik Kolom Sebelumnya
+
Metrik kualitas generasi (semua Terbantu AI):
- Groundedness
- Skor Pengambilan
T/A

Catatan

Meskipun kami memberi Anda serangkaian metrik bawaan komprehensif yang memfasilitasi evaluasi yang mudah dan efisien tentang kualitas dan keamanan aplikasi AI generatif Anda, praktik terbaik adalah beradaptasi dan menyesuaikannya dengan jenis tugas spesifik Anda. Selain itu, kami memberdayakan Anda untuk memperkenalkan metrik yang sepenuhnya baru, memungkinkan Anda untuk mengukur aplikasi Anda dari sudut baru dan memastikan keselarasan dengan tujuan unik Anda.

Metrik risiko dan keamanan

Metrik risiko dan keselamatan menarik wawasan yang diperoleh dari proyek Model Bahasa Besar kami sebelumnya seperti GitHub Copilot dan Bing. Ini memastikan pendekatan komprehensif untuk mengevaluasi respons yang dihasilkan untuk risiko dan skor tingkat keparahan keamanan. Metrik ini dihasilkan melalui layanan evaluasi keselamatan kami, yang menggunakan satu set LLM. Setiap model ditugaskan untuk menilai risiko tertentu yang dapat ada dalam respons (misalnya, konten seksual, konten kekerasan, dll.). Model-model ini disediakan dengan definisi risiko dan skala keparahan, dan mereka membuat anotasi percakapan yang dihasilkan sesuai. Saat ini, kami menghitung "tingkat cacat" untuk metrik risiko dan keamanan di bawah ini. Untuk setiap metrik ini, layanan mengukur apakah jenis konten ini terdeteksi dan pada tingkat keparahan apa. Masing-masing dari empat jenis memiliki tiga tingkat keparahan (Sangat rendah, Rendah, Sedang, Tinggi). Pengguna menentukan ambang toleransi, dan tingkat cacat dihasilkan oleh layanan kami sesuai dengan jumlah instans yang dihasilkan pada dan di atas setiap tingkat ambang batas.

Jenis konten:

  • Konten yang penuh kebencian dan tidak adal
  • Konten seksual
  • Konten kekerasan
  • Konten terkait bahaya mandiri

Selain jenis konten di atas, kami juga mendukung "tingkat cacat Jailbreak" dalam tampilan perbandingan di seluruh evaluasi, metrik yang mengukur prevalensi jailbreak dalam respons model. Jailbreak adalah ketika respons model melewati pembatasan yang ditempatkan di atasnya. Jailbreak juga terjadi di mana LLM menyimpang dari tugas atau topik yang dimaksudkan.

Anda dapat mengukur metrik risiko dan keamanan ini pada data Anda sendiri atau himpunan data pengujian. Kemudian Anda dapat mengevaluasi himpunan data pengujian yang disimulasikan ini untuk menghasilkan himpunan data pengujian anotasi dengan tingkat keparahan risiko konten (sangat rendah, rendah, sedang, atau tinggi) dan melihat hasil Anda di Azure AI , yang memberi Anda tingkat cacat keseluruhan di seluruh himpunan data pengujian dan tampilan instans dari setiap label risiko konten dan penalaran.

Tidak seperti metrik lain dalam tabel, kerentanan jailbreak tidak dapat diukur dengan andal dengan anotasi oleh LLM. Namun, kerentanan jailbreak dapat diukur dengan perbandingan dua himpunan data otomatis (1) himpunan data risiko konten yang berbeda vs. (2) himpunan data risiko konten dengan suntikan jailbreak pada giliran pertama. Kemudian pengguna mengevaluasi kerentanan jailbreak dengan membandingkan tingkat cacat risiko konten dua himpunan data.

Catatan

Metrik risiko dan keselamatan yang dibantu AI dihosting oleh layanan back-end evaluasi keamanan Azure AI Studio dan hanya tersedia di wilayah berikut: US Timur 2, Prancis Tengah, Inggris Selatan, Swedia Tengah.

Wilayah yang tersedia memiliki kapasitas berikut:

Wilayah TPM
Swedia Tengah 450k
Prancis Tengah 380k
UK Selatan 280k
AS Timur 2 80rb

Definisi konten yang penuh kebencian dan tidak adil dan skala keparahan

Peringatan

Definisi risiko konten dan skala tingkat keparahan berisi deskripsi yang mungkin mengganggu beberapa pengguna.

Definisi konten seksual dan skala tingkat keparahan

Peringatan

Definisi risiko konten dan skala tingkat keparahan berisi deskripsi yang mungkin mengganggu beberapa pengguna.

Definisi konten kekerasan dan skala tingkat keparahan

Peringatan

Definisi risiko konten dan skala tingkat keparahan berisi deskripsi yang mungkin mengganggu beberapa pengguna.

Peringatan

Definisi risiko konten dan skala tingkat keparahan berisi deskripsi yang mungkin mengganggu beberapa pengguna.

Metrik kualitas pembuatan

Metrik kualitas generasi digunakan untuk menilai kualitas keseluruhan konten yang dihasilkan oleh aplikasi AI generatif. Berikut adalah perincian tentang apa yang dilakukan metrik ini:

Dibantu AI: Groundedness

Untuk groundedness, kami menyediakan dua versi:

  • Deteksi Groundedness yang memanfaatkan Azure AI Content Brankas ty Service (AACS) melalui integrasi ke dalam evaluasi keamanan Azure AI Studio. Tidak ada penyebaran yang diperlukan dari pengguna sebagai layanan back-end akan menyediakan model bagi Anda untuk menghasilkan skor dan penalaran. Saat ini didukung di wilayah berikut: US Timur 2 dan Swedia Tengah.
  • Groundedness berbasis prompt-only menggunakan model Anda sendiri untuk menghasilkan hanya skor. Saat ini didukung di semua wilayah.

Groundedness berbasis AACS

Karakteristik skor Detail skor
Rentang skor 1-5 di mana 1 tidak teralihkan dan 5 di-grounded
Metrik apa ini? Mengukur seberapa baik jawaban yang dihasilkan model selaras dengan informasi dari data sumber (misalnya, dokumen yang diambil dalam Pertanyaan dan Jawaban RAG atau dokumen untuk ringkasan) dan alasan output yang kalimat tertentu yang dihasilkan tidak dialihkan.
Bagaimana cara kerjanya? Deteksi Groundedness memanfaatkan model bahasa kustom Azure AI Content Brankas ty Service yang disempurnakan ke tugas pemrosesan bahasa alami yang disebut Natural Language Inference (NLI), yang mengevaluasi klaim sebagai ditunjukkan atau tidak disempurnakan oleh dokumen sumber. 
Kapan digunakan? Gunakan metrik groundedness saat Anda perlu memverifikasi bahwa respons yang dihasilkan AI selaras dengan dan divalidasi oleh konteks yang disediakan. Sangat penting untuk aplikasi di mana kebenaran faktual dan akurasi kontekstual adalah kunci, seperti pengambilan informasi, jawaban atas pertanyaan, dan ringkasan konten. Metrik ini memastikan bahwa jawaban yang dihasilkan AI didukung dengan baik oleh konteks.
Apa yang dibutuhkan sebagai input? Pertanyaan, Konteks, Jawaban yang Dihasilkan

Groundedness berbasis prompt-only

Karakteristik skor Detail skor
Rentang skor 1-5 di mana 1 tidak teralihkan dan 5 di-grounded
Metrik apa ini? Mengukur seberapa baik jawaban yang dihasilkan model selaras dengan informasi dari data sumber (konteks yang ditentukan pengguna).
Bagaimana cara kerjanya? Ukuran groundedness menilai korespondensi antara klaim dalam jawaban yang dihasilkan AI dan konteks sumber, memastikan bahwa klaim ini disubstansi oleh konteks. Bahkan jika respons dari LLM secara faktual benar, respons tersebut akan dianggap tidak teralihkan jika tidak dapat diverifikasi terhadap sumber yang disediakan (seperti sumber input atau database Anda).
Kapan digunakan? Gunakan metrik groundedness saat Anda perlu memverifikasi bahwa respons yang dihasilkan AI selaras dengan dan divalidasi oleh konteks yang disediakan. Sangat penting untuk aplikasi di mana kebenaran faktual dan akurasi kontekstual adalah kunci, seperti pengambilan informasi, jawaban atas pertanyaan, dan ringkasan konten. Metrik ini memastikan bahwa jawaban yang dihasilkan AI didukung dengan baik oleh konteks.
Apa yang dibutuhkan sebagai input? Pertanyaan, Konteks, Jawaban yang Dihasilkan

Perintah bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Dibantu AI: Relevansi

Karakteristik skor Detail skor
Rentang skor Bilangan bulat [1-5]: di mana 1 buruk dan 5 baik
Metrik apa ini? Mengukur sejauh mana respons model yang dihasilkan berkaitan dan terkait langsung dengan pertanyaan yang diberikan.
Bagaimana cara kerjanya? Ukuran relevansi menilai kemampuan jawaban untuk menangkap poin-poin penting dari konteks. Skor relevansi tinggi menandakan pemahaman sistem AI tentang input dan kemampuannya untuk menghasilkan output yang sesuai secara koheren dan kontekstual. Sebaliknya, skor relevansi rendah menunjukkan bahwa respons yang dihasilkan mungkin di luar topik, kurang dalam konteks, atau tidak mencukupi dalam mengatasi kueri yang dimaksudkan pengguna.
Kapan digunakan? Gunakan metrik relevansi saat mengevaluasi performa sistem AI dalam memahami input dan menghasilkan respons yang sesuai secara kontekstual.
Apa yang dibutuhkan sebagai input? Pertanyaan, Konteks, Jawaban yang Dihasilkan

Permintaan bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini (Untuk format data jawaban atas pertanyaan):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Permintaan bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini (Untuk format data percakapan) (tanpa Kebenaran Dasar tersedia):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Permintaan bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini (Untuk format data percakapan) (dengan Kebenaran Dasar tersedia):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Dibantu AI: Koherensi

Karakteristik skor Detail skor
Rentang skor Bilangan bulat [1-5]: di mana 1 buruk dan 5 baik
Metrik apa ini? Mengukur seberapa baik model bahasa dapat menghasilkan output yang mengalir dengan lancar, membaca secara alami, dan menyerupai bahasa seperti manusia.
Bagaimana cara kerjanya? Ukuran koherensi menilai kemampuan model bahasa untuk menghasilkan teks yang dibaca secara alami, mengalir dengan lancar, dan menyerupai bahasa seperti manusia dalam responsnya.
Kapan digunakan? Gunakan saat menilai keterbacaan dan keramahan pengguna respons yang dihasilkan model Anda dalam aplikasi dunia nyata.
Apa yang dibutuhkan sebagai input? Pertanyaan, Jawaban yang Dihasilkan

Perintah bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Dibantu AI: Kefasihan

Karakteristik skor Detail skor
Rentang skor Bilangan bulat [1-5]: di mana 1 buruk dan 5 baik
Metrik apa ini? Mengukur kecakupan tata bahasa jawaban terprediksi AI generatif.
Bagaimana cara kerjanya? Ukuran kefasihan menilai sejauh mana teks yang dihasilkan sesuai dengan aturan tata bahasa, struktur sintik, dan penggunaan kosakata yang sesuai, menghasilkan respons yang benar secara linguistik.
Kapan digunakan? Gunakan saat mengevaluasi kebenaran linguistik teks yang dihasilkan AI, memastikan bahwa teks mematuhi aturan tata bahasa, struktur sintetis, dan penggunaan kosakata yang tepat dalam respons yang dihasilkan.
Apa yang dibutuhkan sebagai input? Pertanyaan, Jawaban yang Dihasilkan

Perintah bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Dibantu AI: Skor Pengambilan

Karakteristik skor Detail skor
Rentang skor Float [1-5]: di mana 1 buruk dan 5 baik
Metrik apa ini? Mengukur sejauh mana dokumen model yang diambil berkaitan dan terkait langsung dengan pertanyaan yang diberikan.
Bagaimana cara kerjanya? Skor pengambilan mengukur kualitas dan relevansi dokumen yang diambil dengan pertanyaan pengguna (dirangkum dalam seluruh riwayat percakapan). Langkah: Langkah 1: Memecah kueri pengguna menjadi niat, Mengekstrak niat dari kueri pengguna seperti "Berapa banyak VM Linux Azure dan Azure Windows VM?" -> Niatnya adalah ["berapa harga Azure Linux VM?", "Berapa harga Azure Windows VM?"]. Langkah 2: Untuk setiap niat kueri pengguna, minta model untuk menilai apakah niat itu sendiri atau jawaban atas niat ada atau dapat disimpulkan dari dokumen yang diambil. Jawabannya bisa "Tidak", atau "Ya, dokumen [doc1], [doc2]...". "Ya" berarti dokumen yang diambil berkaitan dengan niat atau jawaban atas niat, dan sebaliknya. Langkah 3: Hitung sebagian kecil niat yang memiliki jawaban yang dimulai dengan "Ya". Dalam hal ini, semua niat memiliki kepentingan yang sama. Langkah 4: Akhirnya, kuadrat skor untuk melakukan penalti kesalahan.
Kapan digunakan? Gunakan skor pengambilan saat Anda ingin menjamin bahwa dokumen yang diambil sangat relevan untuk menjawab pertanyaan pengguna Anda. Skor ini membantu memastikan kualitas dan kepatutan konten yang diambil.
Apa yang dibutuhkan sebagai input? Pertanyaan, Konteks, Jawaban yang Dihasilkan

Perintah bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Dibantu AI: Kesamaan GPT

Karakteristik skor Detail skor
Rentang skor Bilangan bulat [1-5]: di mana 1 buruk dan 5 baik
Metrik apa ini? Mengukur kesamaan antara kalimat data sumber (kebenaran dasar) dan respons yang dihasilkan oleh model AI.
Bagaimana cara kerjanya? Ukuran kesamaan GPT mengevaluasi kesamaan antara kalimat kebenaran dasar (atau dokumen) dan prediksi yang dihasilkan model AI. Perhitungan ini melibatkan pembuatan penyematan tingkat kalimat untuk kebenaran dasar dan prediksi model, yang merupakan representasi vektor dimensi tinggi yang menangkap makna semantik dan konteks kalimat.
Kapan digunakan? Gunakan saat Anda menginginkan evaluasi objektif performa model AI, terutama dalam tugas pembuatan teks tempat Anda memiliki akses ke respons kebenaran dasar. Kesamaan GPT memungkinkan Anda menilai keselarasan semantik teks yang dihasilkan dengan konten yang diinginkan, membantu mengukur kualitas dan akurasi model.
Apa yang dibutuhkan sebagai input? Pertanyaan, Jawaban Kebenaran Dasar, Jawaban yang Dihasilkan

Perintah bawaan yang digunakan oleh hakim Model Bahasa Besar untuk menilai metrik ini:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Pembelajaran mesin tradisional: Skor F1

Karakteristik skor Detail skor
Rentang skor Float [0-1]
Metrik apa ini? Mengukur rasio jumlah kata bersama antara pembuatan model dan jawaban kebenaran dasar.
Bagaimana cara kerjanya? Skor F1 menghitung rasio jumlah kata bersama antara pembuatan model dan kebenaran dasar. Rasio dihitung atas kata-kata individu dalam respons yang dihasilkan terhadap kata-kata dalam jawaban kebenaran dasar. Jumlah kata bersama antara generasi dan kebenaran adalah dasar dari skor F1: presisi adalah rasio jumlah kata bersama terhadap jumlah total kata dalam generasi, dan ingat adalah rasio jumlah kata bersama terhadap jumlah total kata dalam kebenaran dasar.
Kapan digunakan? Gunakan skor F1 saat Anda menginginkan satu metrik komprehensif yang menggabungkan pengenalan dan presisi dalam respons model Anda. Ini memberikan evaluasi seimbang tentang performa model Anda dalam hal menangkap informasi yang akurat dalam respons.
Apa yang dibutuhkan sebagai input? Pertanyaan, Jawaban Kebenaran Dasar, Jawaban yang Dihasilkan

Langkah berikutnya