หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
[หัวข้อนี้เป็นเอกสารก่อนวางจําหน่ายและอาจมีการเปลี่ยนแปลง]
พร้อมท์ช่วยให้คุณสามารถสร้างเครื่องมือ AI สร้างสรรค์แบบกําหนดเองสําหรับระบบอัตโนมัติทางธุรกิจและเอเจนต์ การตรวจสอบความถูกต้อง ความน่าเชื่อถือ และประสิทธิภาพของเครื่องมือเหล่านี้เป็นสิ่งสําคัญ การทดสอบแบบแบตช์ของพร้อมท์ได้รับการออกแบบมาเพื่อช่วยให้คุณสามารถตรวจสอบและยืนยันการทำงานและปรับปรุงพร้อมท์ที่ใช้ในเครื่องมือ AI ทั่วทั้งแพลตฟอร์ม
สำคัญ
- คุณลักษณะพรีวิวความพร้อมในการใช้งานจริง
- คุณลักษณะพรีวิวความพร้อมใช้งานจริงอยู่ภายใต้ ข้อกำหนดการใช้งานเสริม
- โปรแกรมประยุกต์พร้อมท์ทำงานบนโมเดล GPT ที่ขับเคลื่อนโดย Azure OpenAI Service
- ความสามารถนี้อาจยังไม่พร้อมใช้งานในภูมิภาคของคุณ เรียนรู้เพิ่มเติมในส่วนพร้อมท์ในความพร้อมใช้งานของคุณลักษณะตามภูมิภาคหรือสภาพแวดล้อมของส่วนราชการสหรัฐ
- ความสามารถนี้อาจขึ้นอยู่กับขีดจำกัดการใช้งานหรือการควบคุมปริมาณความจุ
คุณลักษณะหลักของการทดสอบชุดงาน
การทดสอบแบบแบทช์มอบวิธีการที่เป็นระบบสำหรับการตรวจสอบคำสั่งบนชุดข้อมูลที่หลากหลาย คุณสามารถ:
- อัปโหลดหรือสร้างชุดข้อมูลทดสอบสําหรับการประเมินที่ครอบคลุม
- กําหนดเกณฑ์การประเมินสําหรับการตัดสินผลลัพธ์การทดสอบ
- ดำเนินการทดสอบชุดงานเพื่อประเมินลักษณะการทำงานของพร้อมท์ในชุดข้อมูลทดสอบ
- เปรียบเทียบผลลัพธ์เมื่อเวลาผ่านไปเพื่อให้แน่ใจว่ามีการปรับปรุงอย่างต่อเนื่อง
- ตรวจทานและปรับการประเมินผลอัตโนมัติเพื่อให้แน่ใจว่าสอดคล้องกับความต้องการเฉพาะของคุณ
คะแนนความแม่นยําจะถูกคํานวณตามผลการทดสอบซึ่งช่วยให้คุณมีข้อมูลที่น่าเชื่อถือในการเชื่อถือเครื่องมือ AI ของคุณ
วิธีการใช้การทดสอบชุดงาน
ใช้ขั้นตอนต่อไปนี้เพื่อตั้งค่าและดำเนินการทดสอบแบบเป็นชุดสำหรับข้อความพร้อมต์ของคุณ
กําหนดกรณีทดสอบ
ลงชื่อเข้าใช้ Copilot Studio, Power Apps หรือ Power Automate
เข้าถึงรายการคำสั่ง:
- ใน Copilot Studio ให้เลือก Tools แล้วเลือกการกรองคำสั่ง
- ใน Power Apps และ Power Automate ให้เลือกฮับ AI
ถัดจากชื่อพรอมต์ ให้เลือกจุดสามจุด (...)
เลือกฮับทดสอบ (ตัวอย่าง)
นี่คือตัวอย่างของหน้าจอ Tools ใน Copilot Studio:
ใน Copilot Studio ฮับการทดสอบมีลักษณะเหมือนกับสกรีนช็อตต่อไปนี้:
เพิ่มกรณีการทดสอบของคุณโดยใช้หนึ่งในตัวเลือกที่พร้อมใช้งาน:
- อัปโหลด: ช่วยให้คุณสามารถอัปโหลดกรณีทดสอบโดยใช้ไฟล์ csv ได้ ถ้าคุณต้องการตรวจสอบรูปแบบของไฟล์ที่คุณต้องอัปโหลด เลือกดาวน์โหลด schema ข้อมูลทดสอบ
- AI-generate: ช่วยให้คุณสามารถสร้างกรณีทดสอบโดยใช้ AI ตามพร้อมท์ของคุณ
- ใช้ข้อมูลกิจกรรม: ช่วยให้คุณสามารถดึงกิจกรรมที่พร้อมท์ล่าสุดเพื่อช่วยให้คุณเริ่มต้นใช้งานได้
- เพิ่มด้วยตนเอง: ช่วยให้คุณสามารถสร้างกรณีทดสอบด้วยตนเองได้
ตัวเลือกใด ๆ ช่วยให้คุณสามารถสร้างรายการกรณีทดสอบที่คุณสามารถเรียกใช้ได้:
กําหนดเกณฑ์การประเมิน
หลังจากที่คุณสร้างกรณีการทดสอบแล้ว ให้เลือก กําหนดค่าเกณฑ์ ในส่วนการกําหนดค่าทางด้านขวา:
กําหนด คะแนนการส่งผ่าน ซึ่งเป็นคะแนนต่ําสุดที่จําเป็นสําหรับการตอบสนองเพื่อผ่าน
เลือกหนึ่งในเกณฑ์จัดทําสําเร็จต่อไปนี้:
- คุณภาพการตอบสนอง: ทดสอบการตอบสนองเพื่อความชัดเจน เป็นประโยชน์ และโทน
- การจับคู่การตอบสนอง: ทดสอบการตอบสนองสําหรับคําและความหมายเฉพาะ
- ความถูกต้องของ JSON: ทดสอบการตอบสนองตาม schema ข้อมูลของคุณ
เกณฑ์เหล่านี้และคะแนนที่ส่งผ่านจะกําหนดวิธีการประเมินเอาต์พุตของกรณีทดสอบในระหว่างกระบวนการประเมินผล
ดำเนินการทดสอบชุดงาน
ในหน้าจอกรณีการทดสอบ ให้เลือก เรียกใช้ทั้งหมด เพื่อเรียกใช้การประเมินผลในกรณีการทดสอบทั้งหมด หรือเลือกกรณีการทดสอบที่จะเรียกใช้และเลือก เรียกใช้ ที่เลือก
ศูนย์ทดสอบประเมินผลลัพธ์เทียบกับเกณฑ์ที่กําหนดไว้ พร้อมให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของคำสั่ง
เมื่อเสร็จสิ้นการประเมินกรณีทดสอบหน้าจอผลลัพธ์จะปรากฏขึ้น:
เมื่อต้องการเข้าถึงการเรียกใช้การประเมินก่อนหน้า ให้เลือกชื่อพร้อมท์ที่ด้านบนของหน้าจอใน Copilot Studio หรือเลือก ประวัติการเรียกใช้ ใน Power Apps หรือ Power Automate
เมื่อต้องการดูรายละเอียด ให้เลือกการเรียกใช้การประเมิน
ประวัติการเรียกใช้ช่วยให้คุณสามารถตรวจสอบและวิเคราะห์ผลลัพธ์การทดสอบเมื่อเวลาผ่านไป รวมถึง:
- ติดตามความก้าวหน้าของคะแนนความแม่นยำในหลายการทดสอบที่ดำเนินการ
- เปรียบเทียบผลลัพธ์จากการทํางานที่แตกต่างกันเพื่อระบุแนวโน้มหรือการถดถอย
- รายละเอียดการเข้าถึงว่าทําไมผลการทดสอบบางอย่างได้รับการจัดประเภทผ่านหรือล้มเหลวดังนั้นจึงเสนอรายละเอียดเพิ่มเติมสําหรับการวินิจฉัย
ทําซ้ําการประเมินกรณีทดสอบและตรวจสอบการเปลี่ยนแปลงที่สําคัญระหว่างการเรียกใช้การประเมิน