แชร์ผ่าน


เลือกวิธีการประเมิน

[บทความนี้เป็นคู่มือรุ่นก่อนวางจำหน่าย และอาจจะมีการเปลี่ยนแปลงในอนาคต]

เมื่อคุณสร้างชุดทดสอบ ให้เลือกจากวิธีการทดสอบต่างๆ เพื่อประเมินการตอบสนองของตัวแทนของคุณ วิธีการทดสอบแต่ละวิธีมีจุดแข็งของตัวเองและเหมาะกับการประเมินประเภทต่างๆ

วิธีทดสอบ การวัด การให้คะแนน การตั้งค่าคอนฟิก
คุณภาพทั่วไป คําตอบของกรณีทดสอบดีแค่ไหนตามคุณสมบัติเฉพาะ คะแนนเต็ม 100% ไม่มีใคร
เปรียบเทียบความหมาย ความหมายของคําตอบของกรณีทดสอบตรงกับคําตอบที่คาดหวังมากน้อยเพียงใด คะแนนเต็ม 100% คะแนนผ่าน คําตอบที่คาดหวัง
การใช้ความสามารถ กรณีทดสอบใช้ทรัพยากรที่คาดไว้หรือไม่ ผ่าน/ไม่ผ่าน ความสามารถที่คาดหวัง
การจับคู่คีย์เวิร์ด กรณีทดสอบใช้คําหลักหรือวลีที่คาดหวังทั้งหมดหรือบางส่วนหรือไม่ ผ่าน/ไม่ผ่าน คีย์เวิร์ดหรือวลีที่คาดหวัง
ความคล้ายคลึงกันของข้อความ ข้อความของคําตอบของกรณีทดสอบตรงกับคําตอบที่คาดหวังมากน้อยเพียงใด คะแนนเต็ม 100% คะแนนผ่าน คําตอบที่คาดหวัง
การทํางานตรงทั้งหมด คําตอบของกรณีทดสอบตรงกับคําตอบที่คาดไว้หรือไม่ ผ่าน/ไม่ผ่าน คําตอบที่คาดหวัง

วิธีเพิ่มวิธีทดสอบลงในชุดทดสอบ:

  1. เมื่อสร้างหรือแก้ไขชุดทดสอบ ให้เลือก เพิ่มวิธีทดสอบ
  2. เลือกวิธีการทั้งหมดที่คุณต้องการทดสอบ จากนั้นเลือก ตกลง คุณสามารถเพิ่มได้หลายวิธี
  3. บางวิธีต้องมีคะแนนผ่าน คะแนนผ่านจะเป็นตัวกําหนดคะแนนที่ส่งผลให้ผ่านหรือล้มเหลว ตั้งค่าคะแนน จากนั้นเลือก ตกลง
  4. วิธีการทดสอบบางอย่างต้องการเกณฑ์เพิ่มเติม
  5. เลือก บันทึก เพื่อบันทึกการเปลี่ยนแปลงของคุณในชุดทดสอบ

เลือกวิธีการทดสอบที่มีอยู่เพื่อแก้ไขเกณฑ์ของเมธอดนั้นหรือลบเมธอดนั้น

คุณภาพทั่วไป

คุณภาพทั่วไป ช่วยให้คุณตัดสินใจได้ว่าคําตอบของตัวแทนของคุณตรงตามมาตรฐานของคุณหรือไม่ ใช้โมเดลภาษาเพื่อประเมินว่าตัวแทนตอบคําถามของผู้ใช้ได้อย่างมีประสิทธิภาพเพียงใด

คุณภาพทั่วไปจะมีประโยชน์อย่างยิ่งเมื่อไม่มีคําตอบที่แน่นอน นําเสนอวิธีที่ยืดหยุ่นและปรับขนาดได้ในการประเมินการตอบกลับตามเอกสารที่ดึงมาและโฟลว์การสนทนา

ใช้เกณฑ์หลักเหล่านี้และใช้ข้อความแจ้งที่สอดคล้องกันเพื่อเป็นแนวทางในการให้คะแนน:

  • ความเกี่ยวข้อง: คําตอบของเอเจนต์ตอบคําถามในขอบเขตใด ตัวอย่างเช่น คําตอบของเจ้าหน้าที่ยังคงอยู่ในหัวเรื่องและตอบคําถามโดยตรงหรือไม่?

  • เหตุผล: การตอบของเอเจนต์ขึ้นอยู่กับบริบทที่ให้ไว้ ตัวอย่างเช่น การอ้างอิงการตอบของเอเจนต์หรือพึ่งพาข้อมูลที่ระบุในบริบทแทนที่จะแนะนําข้อมูลที่ไม่เกี่ยวข้องหรือไม่รองรับหรือไม่

  • ความสมบูรณ์: การตอบของเอเจนต์ให้ข้อมูลที่จําเป็นทั้งหมด ตัวอย่างเช่น การตอบของเอเจนต์ครอบคลุมทุกแง่มุมของคําถามและให้รายละเอียดที่เพียงพอหรือไม่

  • การละเว้น: เอเจนต์ได้พยายามตอบคําถามหรือไม่

การตอบสนองจะต้องเป็นไปตามเกณฑ์หลักเหล่านี้ทั้งหมด หากไม่ตรงตามเกณฑ์หนึ่ง ระบบจะตั้งค่าสถานะการตอบกลับเพื่อปรับปรุง วิธีการให้คะแนนนี้ช่วยให้แน่ใจว่าเฉพาะคําตอบที่ทั้งสมบูรณ์และได้รับการสนับสนุนอย่างดีเท่านั้นที่ได้รับคะแนนสูงสุด ในทางกลับกันคําตอบที่ไม่สมบูรณ์หรือขาดหลักฐานสนับสนุนจะได้รับคะแนนต่ํากว่า

เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก คุณภาพทั่วไป ชุดทดสอบทั้งหมดเริ่มต้นด้วยวิธีนี้โดยค่าเริ่มต้น

คุณไม่จําเป็นต้องเพิ่มคําตอบที่คาดหวังให้กับกรณีทดสอบเพื่อทําการประเมินคุณภาพทั่วไปให้เสร็จสมบูรณ์

เปรียบเทียบความหมาย

การเปรียบเทียบความหมาย จะประเมินผลว่าคําตอบของเอเจนต์สะท้อนความหมายที่คาดไว้ของการตอบที่คาดหวังได้ดีเพียงใด แทนที่จะมุ่งเน้นไปที่ถ้อยคําที่แน่นอน แต่จะใช้ความคล้ายคลึงกันของเจตนา ซึ่งหมายความว่าจะเปรียบเทียบแนวคิดและความหมายเบื้องหลังคํา เพื่อตัดสินว่าคําตอบนั้นสอดคล้องกับสิ่งที่คุณคาดหวังมากน้อยเพียงใด

เช่นเดียวกับคุณภาพทั่วไป การเปรียบเทียบความหมายจะมีประโยชน์อย่างยิ่งเมื่อไม่มีคําตอบที่แน่นอน นําเสนอวิธีที่ยืดหยุ่นและปรับขนาดได้ในการประเมินการตอบกลับตามเอกสารที่ดึงมาและโฟลว์การสนทนา

คุณสามารถตั้งค่าเกณฑ์คะแนนที่ผ่านเพื่อกําหนดว่าเท่าใดเป็นคะแนนที่ผ่านสําหรับคําตอบ คะแนนผ่านเริ่มต้นคือ 50 วิธหารทกาอบการเปรียบเทียบความหมายเป็นประโยชน์เมื่อคําตอบสามารถถูกพูดในแบบที่ถูกต้องต่างกัน แต่ความหมายโดยรวมหรือจุดประสงค์ยังคงต้องเหมือนกัน

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือกเปรียบเทียบความหมาย

  2. กําหนดคะแนนผ่านสําหรับวิธีนี้

  3. เพิ่มคําตอบที่คาดหวัง กรณีทดสอบใด ๆ ที่ไม่มีจะให้ผลลัพธ์ที่ ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ
    2. เพิ่มคําตอบที่คุณคาดหวัง
    3. เลือก นําไปใช้ เพื่อบันทึกคําตอบที่คาดไว้
    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้

การใช้ความสามารถ

การทดสอบความสามารถ ใช้หากตัวแทนใช้เครื่องมือหรือหัวข้อเฉพาะเพื่อสร้างคําตอบ ถ้าเป็นเช่นนั้น มันก็ผ่านไป หากไม่เป็นเช่นนั้น จะล้มเหลว

คุณสามารถเลือกได้ว่าบัตรต้องใช้เครื่องมือหรือหัวข้อใดๆ หรือทั้งหมด การเลือก Any หมายความว่าหากตัวแทนเรียกอย่างน้อยหนึ่งกรณี กรณีทดสอบจะผ่าน การเลือกทั้งหมดหมายความว่าเครื่องมือหรือหัวข้อที่คาดหวังทั้งหมดต้องตรงกันเพื่อให้กรณีทดสอบผ่าน

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก การใช้ความสามารถ

  2. เลือกว่ากรณีทดสอบต้องการเครื่องมือหรือหัวข้อ ใดๆ หรือ ทั้งหมด เพื่อให้ตรงกัน

  3. เพิ่มเครื่องมือหรือหัวข้อที่คาดหวัง กรณีทดสอบใด ๆ ที่ไม่มีจะให้ผลลัพธ์ที่ ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ
    2. เลือกความสามารถที่คุณคาดหวังว่าคําตอบของกรณีและปัญหานั้นจะมี
    3. เลือก ตกลง
    4. เลือก นําไปใช้ เพื่อบันทึกการเปลี่ยนแปลง
    5. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบการใช้ความสามารถ
  4. กําหนดคะแนนผ่านสําหรับวิธีนี้

  5. เพิ่มคําตอบที่คาดหวัง กรณีทดสอบใด ๆ ที่ไม่มีจะให้ผลลัพธ์ที่ ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ
    2. เพิ่มเครื่องมือหรือหัวข้อที่คุณคาดหวัง
    3. เลือก นําไปใช้ เพื่อบันทึก
    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้

การจับคู่คีย์เวิร์ด

การจับคู่คําสําคัญ จะตรวจสอบว่าคําตอบของตัวแทนมีคําหรือวลีบางส่วนหรือทั้งหมดจากคําตอบที่คาดหวังที่คุณกําหนดหรือไม่ ถ้าเป็นเช่นนั้น ก็จะผ่าน หากไม่เป็นเช่นนั้น จะล้มเหลว

คุณสามารถเลือกได้ว่าบัตรผ่านต้องใช้คีย์เวิร์ดใดๆ หรือคีย์เวิร์ดทั้งหมด การเลือก Any หมายความว่า หากคําหรือวลีอย่างน้อยหนึ่งคําตรงกัน กรณีทดสอบจะผ่าน การเลือกทั้งหมดหมายความว่าคําหรือวลีที่คาดหวังทั้งหมดต้องตรงกันเพื่อให้กรณีทดสอบผ่าน

การจับคู่คีย์เวิร์ดมีประโยชน์เมื่อสามารถใช้วลีคําตอบได้ด้วยวิธีที่ถูกต้องที่แตกต่างกัน แต่คําหรือแนวคิดหลักยังคงต้องรวมอยู่ในคําตอบ

  1. เมื่อเพิ่มหรือแก้ไขวิธีทดสอบ ให้เลือกการจับคู่คีย์เวิร์ด

  2. เลือกว่ากรณีทดสอบต้องการคีย์เวิร์ด ใดๆ หรือ ทั้งหมด เพื่อจับคู่

  3. เพิ่มคีย์เวิร์ดที่คาดหวัง กรณีทดสอบใด ๆ ที่ไม่มีจะให้ผลลัพธ์ที่ ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ
    2. เพิ่มคีย์เวิร์ดหรือวลีที่คุณคาดหวังว่าคําตอบของกรณีนั้นจะมี
    3. เลือก + เพื่อเพิ่มคีย์เวิร์ดหรือวลีเพิ่มเติม เลือก ลบ
    4. เลือก นําไปใช้ เพื่อบันทึกคีย์เวิร์ดที่คาดไว้
    5. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบการจับคู่คีย์เวิร์ด

ความคล้ายคลึงกันของข้อความ

วิธีการทดสอบความคล้ายคลึงกันจะเปรียบเทียบความคล้ายคลึงกันของการตอบสนองของตัวแทนกับการตอบสนองที่คาดหวังที่คุณกําหนดไว้ในชุดทดสอบของคุณ เป็นประโยชน์เมื่อคําตอบสามารถถูกพูดในแบบที่ถูกต้องต่างกัน แต่ความหมายโดยรวมหรือจุดประสงค์ยังคงต้องเหมือนกัน

ใช้เมตริกความคล้ายคลึงกันของโคไซน์เพื่อประเมินว่าคําตอบของตัวแทนคล้ายกับการใช้ถาพยัญและมีความหมายของการตอบสนองที่คาดไว้อย่างไร และกําหนดคะแนน คะแนนมีช่วงระหว่าง 0 และ 1 โดยที่ 1 ระบุการตรงกันอย่างใกล้ชิด และ 0 ระบุว่าไม่ตรงกัน คุณสามารถตั้งค่าเกณฑ์คะแนนที่ผ่านเพื่อกําหนดว่าเท่าใดเป็นคะแนนที่ผ่านสําหรับคําตอบ

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก ความคล้ายคลึงกันของข้อความ

  2. กําหนดคะแนนผ่านสําหรับวิธีนี้

  3. เพิ่มคําตอบที่คาดหวัง กรณีทดสอบใด ๆ ที่ไม่มีจะให้ผลลัพธ์ที่ ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ
    2. เพิ่มคําตอบที่คุณคาดหวัง
    3. เลือก นําไปใช้ เพื่อบันทึกคําตอบที่คาดไว้
    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้

ตรงกันทุกประการ

การจับคู่ที่ตรงกัน จะตรวจสอบว่าคําตอบของตัวแทนตรงกับคําตอบที่คาดไว้ในการทดสอบหรือไม่: อักขระสําหรับอักขระ คําสําหรับคํา ถ้าเหมือนกัน ก็ผ่าน หากมีสิ่งใดแตกต่างกัน ก็จะล้มเหลว การตรงกันทุกประการจะเป็นประโยชน์สําหรับคําตอบที่สั้นและแม่นยํา เช่น ตัวเลข รหัส หรือวลีแบบคงที่ ไม่เหมาะกับคําตอบที่ผู้ใช้สามารถเลือกใช้วลีด้วยวิธีที่ถูกต้องได้หลายวิธี

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก การทํางานแบบตรงทั้งหมด

  2. เพิ่มคําตอบที่คาดหวัง กรณีทดสอบใด ๆ ที่ไม่มีจะให้ผลลัพธ์ที่ ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ
    2. เพิ่มคําตอบที่คุณคาดหวัง
    3. เลือก นําไปใช้ เพื่อบันทึกคําตอบที่คาดไว้
    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้