การทดสอบแบตช์สำหรับพรอมต์ (พรีวิว)

[หัวข้อนี้เป็นเอกสารก่อนวางจําหน่ายและอาจมีการเปลี่ยนแปลง]

พร้อมท์ช่วยให้คุณสามารถสร้างเครื่องมือ AI สร้างสรรค์แบบกําหนดเองสําหรับระบบอัตโนมัติทางธุรกิจและเอเจนต์ การตรวจสอบความถูกต้อง ความน่าเชื่อถือ และประสิทธิภาพของเครื่องมือเหล่านี้เป็นสิ่งสําคัญ การทดสอบแบบแบตช์ของพร้อมท์ได้รับการออกแบบมาเพื่อช่วยให้คุณสามารถตรวจสอบและยืนยันการทำงานและปรับปรุงพร้อมท์ที่ใช้ในเครื่องมือ AI ทั่วทั้งแพลตฟอร์ม

สำคัญ

คุณลักษณะหลักของการทดสอบชุดงาน

การทดสอบแบบแบทช์มอบวิธีการที่เป็นระบบสำหรับการตรวจสอบคำสั่งบนชุดข้อมูลที่หลากหลาย คุณสามารถ:

  • อัปโหลดหรือสร้างชุดข้อมูลทดสอบสําหรับการประเมินที่ครอบคลุม
  • กําหนดเกณฑ์การประเมินสําหรับการตัดสินผลลัพธ์การทดสอบ
  • ดำเนินการทดสอบชุดงานเพื่อประเมินลักษณะการทำงานของพร้อมท์ในชุดข้อมูลทดสอบ
  • เปรียบเทียบผลลัพธ์เมื่อเวลาผ่านไปเพื่อให้แน่ใจว่ามีการปรับปรุงอย่างต่อเนื่อง
  • ตรวจทานและปรับการประเมินผลอัตโนมัติเพื่อให้แน่ใจว่าสอดคล้องกับความต้องการเฉพาะของคุณ

คะแนนความแม่นยําจะถูกคํานวณตามผลการทดสอบซึ่งช่วยให้คุณมีข้อมูลที่น่าเชื่อถือในการเชื่อถือเครื่องมือ AI ของคุณ

วิธีการใช้การทดสอบชุดงาน

ใช้ขั้นตอนต่อไปนี้เพื่อตั้งค่าและดำเนินการทดสอบแบบเป็นชุดสำหรับข้อความพร้อมต์ของคุณ

กําหนดกรณีทดสอบ

  1. ลงชื่อเข้าใช้ Copilot Studio, Power Apps หรือ Power Automate

  2. เข้าถึงรายการคำสั่ง:

    • ใน Copilot Studio ให้เลือก Tools แล้วเลือกการกรองคำสั่ง
    • ใน Power Apps และ Power Automate ให้เลือกฮับ AI
  3. ถัดจากชื่อพรอมต์ ให้เลือกจุดสามจุด (...)

  4. เลือกฮับทดสอบ (ตัวอย่าง)

    นี่คือตัวอย่างของหน้าจอ Tools ใน Copilot Studio:

    สกรีนช็อตของเมนูที่มีตัวเลือก 'ฮับทดสอบ - แสดงตัวอย่าง'

    ใน Copilot Studio ฮับการทดสอบมีลักษณะเหมือนกับสกรีนช็อตต่อไปนี้:

    สกรีนช็อตของหน้าจอฮับทดสอบ

  5. เพิ่มกรณีการทดสอบของคุณโดยใช้หนึ่งในตัวเลือกที่พร้อมใช้งาน:

    • อัปโหลด: ช่วยให้คุณสามารถอัปโหลดกรณีทดสอบโดยใช้ไฟล์ csv ได้ ถ้าคุณต้องการตรวจสอบรูปแบบของไฟล์ที่คุณต้องอัปโหลด เลือกดาวน์โหลด schema ข้อมูลทดสอบ
    • AI-generate: ช่วยให้คุณสามารถสร้างกรณีทดสอบโดยใช้ AI ตามพร้อมท์ของคุณ
    • ใช้ข้อมูลกิจกรรม: ช่วยให้คุณสามารถดึงกิจกรรมที่พร้อมท์ล่าสุดเพื่อช่วยให้คุณเริ่มต้นใช้งานได้
    • เพิ่มด้วยตนเอง: ช่วยให้คุณสามารถสร้างกรณีทดสอบด้วยตนเองได้

    ตัวเลือกใด ๆ ช่วยให้คุณสามารถสร้างรายการกรณีทดสอบที่คุณสามารถเรียกใช้ได้:

    สกรีนช็อตของกรณีทดสอบที่อัปโหลด

กําหนดเกณฑ์การประเมิน

  1. หลังจากที่คุณสร้างกรณีการทดสอบแล้ว ให้เลือก กําหนดค่าเกณฑ์ ในส่วนการกําหนดค่าทางด้านขวา:

    สกรีนช็อตของการกําหนดค่าเกณฑ์การประเมิน

  2. กําหนด คะแนนการส่งผ่าน ซึ่งเป็นคะแนนต่ําสุดที่จําเป็นสําหรับการตอบสนองเพื่อผ่าน

  3. เลือกหนึ่งในเกณฑ์จัดทําสําเร็จต่อไปนี้:

    • คุณภาพการตอบสนอง: ทดสอบการตอบสนองเพื่อความชัดเจน เป็นประโยชน์ และโทน
    • การจับคู่การตอบสนอง: ทดสอบการตอบสนองสําหรับคําและความหมายเฉพาะ
    • ความถูกต้องของ JSON: ทดสอบการตอบสนองตาม schema ข้อมูลของคุณ

    สกรีนช็อตของเกณฑ์การประเมิน

    เกณฑ์เหล่านี้และคะแนนที่ส่งผ่านจะกําหนดวิธีการประเมินเอาต์พุตของกรณีทดสอบในระหว่างกระบวนการประเมินผล

ดำเนินการทดสอบชุดงาน

  1. ในหน้าจอกรณีการทดสอบ ให้เลือก เรียกใช้ทั้งหมด เพื่อเรียกใช้การประเมินผลในกรณีการทดสอบทั้งหมด หรือเลือกกรณีการทดสอบที่จะเรียกใช้และเลือก เรียกใช้ ที่เลือก

    สกรีนช็อตของการทดสอบที่จะเรียกใช้

    ศูนย์ทดสอบประเมินผลลัพธ์เทียบกับเกณฑ์ที่กําหนดไว้ พร้อมให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของคำสั่ง

  2. เมื่อเสร็จสิ้นการประเมินกรณีทดสอบหน้าจอผลลัพธ์จะปรากฏขึ้น:

    สกรีนช็อตของผลลัพธ์การทดสอบ

  3. เมื่อต้องการเข้าถึงการเรียกใช้การประเมินก่อนหน้า ให้เลือกชื่อพร้อมท์ที่ด้านบนของหน้าจอใน Copilot Studio หรือเลือก ประวัติการเรียกใช้ ใน Power Apps หรือ Power Automate

    สกรีนช็อตของประวัติการเรียกใช้

  4. เมื่อต้องการดูรายละเอียด ให้เลือกการเรียกใช้การประเมิน

ประวัติการเรียกใช้ช่วยให้คุณสามารถตรวจสอบและวิเคราะห์ผลลัพธ์การทดสอบเมื่อเวลาผ่านไป รวมถึง:

  • ติดตามความก้าวหน้าของคะแนนความแม่นยำในหลายการทดสอบที่ดำเนินการ
  • เปรียบเทียบผลลัพธ์จากการทํางานที่แตกต่างกันเพื่อระบุแนวโน้มหรือการถดถอย
  • รายละเอียดการเข้าถึงว่าทําไมผลการทดสอบบางอย่างได้รับการจัดประเภทผ่านหรือล้มเหลวดังนั้นจึงเสนอรายละเอียดเพิ่มเติมสําหรับการวินิจฉัย

ทําซ้ําการประเมินกรณีทดสอบและตรวจสอบการเปลี่ยนแปลงที่สําคัญระหว่างการเรียกใช้การประเมิน