แชร์ผ่าน


เลือกวิธีการประเมิน

เมื่อคุณสร้างชุดทดสอบ ให้เลือกจากวิธีการทดสอบต่างๆ เพื่อประเมินการตอบสนองของตัวแทนของคุณ วิธีการทดสอบแต่ละวิธีมีจุดแข็งของตัวเองและเหมาะกับการประเมินประเภทต่างๆ

วิธีทดสอบ การวัด ชนิดของชุดการทดสอบ การให้คะแนน การตั้งค่าคอนฟิก
คุณภาพทั่วไป ความดีของการตอบสนองของกรณีทดสอบที่ขึ้นอยู่กับคุณสมบัติเฉพาะคือเท่าใด การตอบกลับหรือการสนทนาเดียว คะแนนเต็ม 100% ไม่มีใคร
เปรียบเทียบความหมาย ความหมายของคําตอบของกรณีทดสอบตรงกับคําตอบที่คาดหวังมากน้อยเพียงใด การตอบสนองครั้งเดียว คะแนนเต็ม 100% คะแนนขั้นต่ำที่ผ่าน คำตอบที่คาดหวัง
การใช้ความสามารถ ไม่ว่ากรณีการทดสอบจะใช้ทรัพยากรที่คาดไว้ทั้งหมดหรือไม่ การตอบสนองครั้งเดียว ผ่าน/ไม่ผ่าน ความสามารถที่คาดหวัง
การจับคู่คีย์เวิร์ด กรณีทดสอบใช้คําหลักหรือวลีที่คาดหวังทั้งหมดหรือบางส่วนหรือไม่ การตอบกลับหรือการสนทนาเดียว ผ่าน/ไม่ผ่าน คีย์เวิร์ดหรือวลีที่คาดหวัง
ความคล้ายคลึงกันของข้อความ ข้อความของคําตอบของกรณีทดสอบตรงกับคําตอบที่คาดหวังมากน้อยเพียงใด การตอบสนองครั้งเดียว คะแนนเต็ม 100% คะแนนขั้นต่ำที่ผ่าน คำตอบที่คาดหวัง
ตรงกันเป๊ะ คําตอบของกรณีทดสอบตรงกับคําตอบที่คาดไว้หรือไม่ การตอบสนองครั้งเดียว ผ่าน/ไม่ผ่าน คําตอบที่คาดหวัง

เพิ่มวิธีการทดสอบ

  1. เมื่อสร้างหรือแก้ไขชุดทดสอบ ให้เลือก เพิ่มวิธีทดสอบ

  2. เลือกวิธีการทั้งหมดที่คุณต้องการทดสอบ จากนั้นเลือก ตกลง คุณสามารถเพิ่มได้หลายวิธี

    1. บางวิธีต้องมีคะแนนผ่าน คะแนนผ่านจะเป็นตัวกําหนดคะแนนที่ส่งผลให้ผ่านหรือล้มเหลว ตั้งค่าคะแนน จากนั้นเลือก ตกลง

    2. วิธีการทดสอบบางอย่างจําเป็นต้องมีเกณฑ์เพิ่มเติม

  3. เลือก บันทึก เพื่อบันทึกการเปลี่ยนแปลงของคุณในชุดทดสอบ

เลือกวิธีการทดสอบที่มีอยู่เพื่อแก้ไขเกณฑ์ของเมธอดนั้นหรือลบเมธอดนั้น

คุณภาพทั่วไป

พร้อมใช้งานสําหรับชุดทดสอบการตอบกลับและการสนทนาเดี่ยว คุณภาพทั่วไป ช่วยให้คุณตัดสินใจได้ว่าคําตอบของตัวแทนของคุณตรงตามมาตรฐานของคุณหรือไม่ ใช้แบบจําลองภาษาขนาดใหญ่ (LLM) เพื่อประเมินว่าเจ้าหน้าที่ตอบคําถามของผู้ใช้ได้อย่างมีประสิทธิภาพเพียงใด

คุณภาพทั่วไปจะมีประโยชน์อย่างยิ่งเมื่อไม่มีคําตอบที่แน่นอน นําเสนอวิธีที่ยืดหยุ่นและปรับขนาดได้ในการประเมินการตอบกลับตามเอกสารที่ดึงมาและโฟลว์การสนทนา

ใช้เกณฑ์หลักเหล่านี้และใช้ข้อความแจ้งที่สอดคล้องกันเพื่อเป็นแนวทางในการให้คะแนน:

  • ความเกี่ยวข้อง: คําตอบของเอเจนต์ตอบคําถามในขอบเขตใด ตัวอย่างเช่น คําตอบของเจ้าหน้าที่ยังคงอยู่ในหัวเรื่องและตอบคําถามโดยตรงหรือไม่?

  • เหตุผล: การตอบของเอเจนต์ขึ้นอยู่กับบริบทที่ให้ไว้ ตัวอย่างเช่น การอ้างอิงการตอบของเอเจนต์หรือพึ่งพาข้อมูลที่ระบุในบริบทแทนที่จะแนะนําข้อมูลที่ไม่เกี่ยวข้องหรือไม่รองรับหรือไม่

  • ความสมบูรณ์: การตอบของเอเจนต์ให้ข้อมูลที่จําเป็นทั้งหมด ตัวอย่างเช่น การตอบของเอเจนต์ครอบคลุมทุกแง่มุมของคําถามและให้รายละเอียดที่เพียงพอหรือไม่

  • การละเว้น: เอเจนต์ได้พยายามตอบคําถามหรือไม่

การตอบสนองจะต้องเป็นไปตามเกณฑ์หลักเหล่านี้ทั้งหมด หากไม่ตรงตามเกณฑ์หนึ่ง ระบบจะตั้งค่าสถานะการตอบกลับเพื่อปรับปรุง วิธีการให้คะแนนนี้ช่วยให้แน่ใจว่าเฉพาะคําตอบที่ทั้งสมบูรณ์และได้รับการสนับสนุนอย่างดีเท่านั้นที่ได้รับคะแนนสูงสุด ในทางกลับกันคําตอบที่ไม่สมบูรณ์หรือขาดหลักฐานสนับสนุนจะได้รับคะแนนต่ํากว่า

เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก คุณภาพทั่วไป ชุดทดสอบทั้งหมดเริ่มต้นด้วยวิธีนี้โดยค่าเริ่มต้น

คุณไม่จําเป็นต้องเพิ่มคําตอบที่คาดหวังให้กับกรณีทดสอบเพื่อทําการประเมินคุณภาพทั่วไปให้เสร็จสมบูรณ์

เปรียบเทียบความหมาย

พร้อมใช้งานสําหรับชุดการทดสอบการตอบสนองเดียว การเปรียบเทียบความหมาย จะประเมินผลว่าคําตอบของเอเจนต์สะท้อนความหมายที่คาดไว้ของการตอบที่คาดหวังได้ดีเพียงใด แทนที่จะมุ่งเน้นไปที่ถ้อยคําที่แน่นอน แต่จะใช้ความคล้ายคลึงกันของเจตนา ซึ่งหมายความว่าจะเปรียบเทียบแนวคิดและความหมายเบื้องหลังคํา เพื่อตัดสินว่าคําตอบนั้นสอดคล้องกับสิ่งที่คุณคาดหวังมากน้อยเพียงใด

เช่นเดียวกับคุณภาพทั่วไป การเปรียบเทียบความหมายจะมีประโยชน์อย่างยิ่งเมื่อไม่มีคําตอบที่แน่นอน นําเสนอวิธีที่ยืดหยุ่นและปรับขนาดได้ในการประเมินการตอบกลับตามเอกสารที่ดึงมาและโฟลว์การสนทนา

คุณสามารถตั้งค่าเกณฑ์คะแนนที่ผ่านเพื่อกําหนดว่าเท่าใดเป็นคะแนนที่ผ่านสําหรับคําตอบ คะแนนผ่านเริ่มต้นคือ 50 วิธหารทกาอบการเปรียบเทียบความหมายเป็นประโยชน์เมื่อคําตอบสามารถถูกพูดในแบบที่ถูกต้องต่างกัน แต่ความหมายโดยรวมหรือจุดประสงค์ยังคงต้องเหมือนกัน

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือกเปรียบเทียบความหมาย

  2. กําหนดคะแนนผ่านสําหรับวิธีนี้

  3. เพิ่มคําตอบที่คาดหวัง กรณีการทดสอบใด ๆ ที่ไม่มีคําตอบที่คาดหวังจะสร้างผลลัพธ์ ที่ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ

    2. เพิ่มคําตอบที่คุณคาดหวัง

    3. เลือก นําไปใช้ เพื่อบันทึกคําตอบที่คาดไว้

    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้

การใช้เครื่องมือ

พร้อมใช้งานสําหรับชุดการทดสอบการตอบสนองเดียว การทดสอบความสามารถ ใช้หากตัวแทนใช้เครื่องมือหรือหัวข้อเฉพาะเพื่อสร้างคําตอบ ถ้าเป็นเช่นนั้น มันก็ผ่านไป หากไม่เป็นเช่นนั้น จะล้มเหลว

  1. เมื่อเพิ่มหรือแก้ไขวิธีทดสอบ ให้เลือก เครื่องมือที่ใช้

  2. เพิ่มเครื่องมือหรือหัวข้อที่คาดหวัง กรณีการทดสอบใด ๆ ที่ไม่มีคําตอบที่คาดหวังจะสร้างผลลัพธ์ ที่ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ เมื่อต้องเพิ่มเครื่องมือและหัวข้อที่คาดหวังเดียวกันสําหรับกรณีทดสอบทั้งหมด เลือกไอคอนแก้ไขในเครื่องมือใช้ส่วนหัวของคอลัมน์

    2. ในบานหน้าต่าง แก้ไขกรณีการทดสอบ ให้เลือกเครื่องมือที่คุณคาดหวังให้ตัวแทนของคุณใช้สําหรับกรณีการทดสอบนั้น

    3. เลือก ตกลง

    4. เลือก นําไปใช้ เพื่อบันทึกการเปลี่ยนแปลง

    5. ทําซ้ําสําหรับกรณีการทดสอบทั้งหมดที่คุณต้องการทดสอบสําหรับเครื่องมือที่ใช้

การจับคู่คีย์เวิร์ด

พร้อมใช้งานสําหรับชุดทดสอบการตอบกลับและการสนทนาเดี่ยว การจับคู่คําสําคัญ จะตรวจสอบว่าคําตอบของตัวแทนมีคําหรือวลีบางส่วนหรือทั้งหมดจากคําตอบที่คาดหวังที่คุณกําหนดหรือไม่ ถ้าเป็นเช่นนั้น ก็จะผ่าน หากไม่เป็นเช่นนั้น จะล้มเหลว

คุณสามารถเลือกได้ว่าบัตรผ่านต้องใช้คีย์เวิร์ดใดๆ หรือคีย์เวิร์ดทั้งหมด การเลือก Any หมายความว่า หากคําหรือวลีอย่างน้อยหนึ่งคําตรงกัน กรณีทดสอบจะผ่าน การเลือกทั้งหมดหมายความว่าคําหรือวลีที่คาดหวังทั้งหมดต้องตรงกันเพื่อให้กรณีทดสอบผ่าน

  1. เมื่อเพิ่มหรือแก้ไขวิธีทดสอบ ให้เลือกการจับคู่คีย์เวิร์ด

  2. เลือกว่ากรณีทดสอบต้องการคีย์เวิร์ด ใดๆ หรือ ทั้งหมด เพื่อจับคู่

  3. เพิ่มคีย์เวิร์ดที่คาดหวัง กรณีการทดสอบใด ๆ โดยไม่มีคําหลักที่คาดไว้จะสร้างผลลัพธ์ ที่ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ

    2. ในบานหน้าต่าง แก้ไขกรณีการทดสอบ ให้เพิ่มคําสําคัญหรือวลีที่คุณคาดว่าจะมีคําตอบของกรณี

    3. เลือก + เพิ่ม เพื่อเพิ่มคําหลักหรือวลีเพิ่มเติม หากต้องการลบคําหลักหรือวลี ให้เลือกไอคอน ลบ

    4. เลือก นําไปใช้ เพื่อบันทึกคีย์เวิร์ดที่คาดไว้

    5. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบการจับคู่คีย์เวิร์ด

ความคล้ายคลึงกันของข้อความ

พร้อมใช้งานสําหรับชุดการทดสอบการตอบสนองเดียว วิธีการทดสอบ ความคล้ายคลึงกันของข้อความ จะเปรียบเทียบความคล้ายคลึงกันของการตอบสนองของตัวแทนต่อการตอบสนองที่คาดไว้ที่คุณกําหนดไว้ในชุดการทดสอบของคุณ เป็นประโยชน์เมื่อคําตอบสามารถถูกพูดในแบบที่ถูกต้องต่างกัน แต่ความหมายโดยรวมหรือจุดประสงค์ยังคงต้องเหมือนกัน

ใช้เมตริกความคล้ายคลึงกันของโคไซน์เพื่อประเมินว่าคําตอบของตัวแทนคล้ายกับการใช้ถาพยัญและมีความหมายของการตอบสนองที่คาดไว้อย่างไร และกําหนดคะแนน คะแนนมีช่วงระหว่าง 0 และ 1 โดยที่ 1 ระบุการตรงกันอย่างใกล้ชิด และ 0 ระบุว่าไม่ตรงกัน คุณสามารถตั้งค่าเกณฑ์คะแนนที่ผ่านเพื่อกําหนดว่าเท่าใดเป็นคะแนนที่ผ่านสําหรับคําตอบ

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก ความคล้ายคลึงกันของข้อความ

  2. กําหนดคะแนนผ่านสําหรับวิธีนี้

  3. เพิ่มคําตอบที่คาดหวัง กรณีการทดสอบใด ๆ ที่ไม่มีคําตอบที่คาดหวังจะสร้างผลลัพธ์ ที่ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ

    2. เพิ่มคําตอบที่คุณคาดหวัง

    3. เลือก นําไปใช้ เพื่อบันทึกคําตอบที่คาดไว้

    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้

ตรงกันเป๊ะ

พร้อมใช้งานสําหรับชุดการทดสอบการตอบสนองเดียว การจับคู่ที่ตรงกัน จะตรวจสอบว่าคําตอบของตัวแทนตรงกับคําตอบที่คาดไว้ในการทดสอบหรือไม่: อักขระสําหรับอักขระ คําสําหรับคํา ถ้าเหมือนกัน ก็จะผ่าน หากมีสิ่งใดแตกต่างกัน ก็จะล้มเหลว การตรงกันทุกประการจะเป็นประโยชน์สําหรับคําตอบที่สั้นและแม่นยํา เช่น ตัวเลข รหัส หรือวลีแบบคงที่ ไม่เหมาะกับคําตอบที่ผู้ใช้สามารถเลือกใช้วลีด้วยวิธีที่ถูกต้องได้หลายวิธี

  1. เมื่อเพิ่มหรือแก้ไขวิธีการทดสอบ ให้เลือก การจับคู่ตรง

  2. เพิ่มคําตอบที่คาดหวัง กรณีการทดสอบใด ๆ ที่ไม่มีคําตอบที่คาดหวังจะสร้างผลลัพธ์ ที่ไม่ถูกต้อง สําหรับวิธีการทดสอบนี้

    1. เลือกกรณีทดสอบ

    2. เพิ่มคําตอบที่คุณคาดหวัง

    3. เลือก นําไปใช้ เพื่อบันทึกคําตอบที่คาดไว้

    4. ทําซ้ําสําหรับกรณีทดสอบทั้งหมดที่คุณต้องการทดสอบโดยใช้วิธีนี้

ธรรมเนียม

แบบกําหนดเอง เป็นวิธีการทดสอบที่สามารถปรับแต่งได้ ซึ่งช่วยให้คุณทดสอบและติดป้ายคําตอบของตัวแทนโดยใช้เกณฑ์ของคุณเอง ตัวอย่างเช่น คุณสามารถสร้างการทดสอบการปฏิบัติตามข้อบังคับสําหรับตัวแทน HR เพื่อติดป้ายคําตอบสําหรับการทดสอบว่าเป็นไปตามข้อกําหนดหรือไม่สอดคล้องกับคําอธิบายการปฏิบัติตามข้อกําหนดของ HR ของคุณ

การทดสอบแบบกําหนดเองมีสองคอมโพเนนต์เพื่อให้คุณกําหนดค่า:

คําแนะนําการประเมินผล: อธิบายเป้าหมายที่คุณต้องการทําด้วยการทดสอบนี้ คุณต้องการทดสอบอะไรเพื่อหาคําตอบของตัวแทนของคุณ

คําแนะนําการประเมินผลที่ดีควร:

  • มุ่งเน้นเป้าหมาย

  • ใช้เฉพาะอักขระที่อนุญาตเท่านั้น

  • ใช้สัญลักษณ์แสดงหัวข้อย่อยและหัวเรื่องสําหรับองค์กร

เช่น:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

ป้ายชื่อ: อธิบายผลลัพธ์ที่กําหนดให้กับคําตอบแต่ละรายการโดยใช้การทดสอบแบบกําหนดเอง ป้ายยังมีการกำหนดสถานะผ่าน/ไม่ผ่าน ซึ่งมีผลต่ออัตราการผ่านของชุดการทดสอบตามวิธีการนี้

ป้ายชื่อมีชื่อและคําอธิบาย คําอธิบายที่ดี:

  • สั้นและรัดกุม

  • ประกอบด้วยแอตทริบิวต์ที่คุณกําลังค้นหาในคําตอบที่ตรงกัน

กลยุทธ์หนึ่งสำหรับป้ายชื่อคือการมีสองประเภท: หนึ่งคือคำตอบที่ตรงตามเกณฑ์ที่คุณกำลังค้นหาสำเร็จ และอีกหนึ่งสำหรับคำตอบที่ไม่ตรงตามเกณฑ์ ตัวอย่างเช่น การทดสอบแบบกําหนดเองตามนโยบายของ HR อาจมี มาตรฐาน และไม่ ตรงตามมาตรฐาน เป็นป้ายชื่อ

  1. เมื่อเพิ่มหรือแก้ไขวิธีทดสอบ ให้เลือก กําหนดเอง

  2. ป้อนชื่อสําหรับการทดสอบแบบกําหนดเองนี้

  3. เพิ่มคําแนะนําการประเมินผล

  4. เพิ่มป้ายชื่อสองป้ายหรือมากกว่า แต่ละป้ายชื่อมีชื่อและคําอธิบาย

    หากต้องการเพิ่มป้ายชื่อเพิ่มเติม ให้เลือก เพิ่มป้ายชื่อ

    ชื่อป้ายชื่อสามารถใช้ตัวอักษร ตัวเลข ช่องว่าง ยัติภังค์ - ขีดล่าง _ เครื่องหมายทับ / แอมเปอร์แซนด์ & เครื่องหมายบวก + และ จุด . เท่านั้น

  5. ตั้งค่าผลลัพธ์ ผ่าน หรือ ล้มเหลว สําหรับแต่ละป้ายชื่อ

  6. เลือก ตกลง