הערה
הגישה לדף זה מחייבת הרשאה. באפשרותך לנסות להיכנס או לשנות מדריכי כתובות.
הגישה לדף זה מחייבת הרשאה. באפשרותך לנסות לשנות מדריכי כתובות.
הערכת סוכן צריכה להיות תהליך איטרטיבי החל מתהליך ההדמיה והעיצוב של הסוכן, והמשך דרך פריסת סוכן וזיהוי רגרסיה. תבנית זו מספקת את הרכיבים החיוניים לבניית ערכות בדיקה להערכה וכיצד ליישם ולבצע איטרציה באמצעות מבנה בן ארבעה שלבים לאורך מחזור החיים של הסוכן.
- שלב 1: בניית ערכות בדיקה להערכת בסיס
- שלב 2: יצירת תוכנית בסיסית ומשפרת
- שלב 3: יישום הרחבה מערכתית
- שלב 4: יצירת פעולת הערכת שיפורי איכות רציפה
עצה
הורד את תבנית רשימת הפעולות לביצוע הניתנת לעריכה.
שלב 1: בניית ערכות בדיקה להערכת בסיס
מטרה: צור והפעל ערכת בדיקה להערכה בסיסית שלהעריך את תרחישי הליבה של הסוכן.
ערכת בדיקה להערכה היא קבוצה של מקרי בדיקה. מקרה בדיקה הוא זוג בקשה ותגובה יחיד להערכה של תשובה של סוכן לשאלה ספציפית. הוא כולל הנחיה לבדיקה ותגובה צפויה אופציונלית (קביעה) שמופיעה ישירות מתוך דרישות ההנחיות של הסוכן. מקרה בדיקה צריך גם לציין את קריטריוני הקבלה ואת שיטת הבדיקה כדי להעריך את האיכות.
| תרחיש סוכן1 | הנחיית בדיקה (הנחיית שאלה לדוגמה לסוכן) |
התגובה הצפויה | קריטריוני קבלה2 (הגדר כיצד נראית תגובה מוצלחת: מה עובר ומה לא) |
|---|---|---|---|
| על הסוכן לענות על תוכן מדיניות בהתבסס על מאמר הידע של המדיניות. | "כמה ימי מחלה עובדים מקבלים?" | "30 יום. <"ציטוט>" | התגובה חייבת להכיל את הטקסט המדויק מהידע של המדיניות וההתאמה לטקסט. על התגובה לכלול ציטוט. |
| הסוכן לא אמור לענות על שאלות מעבר למאמר הידע של המדיניות. תשובות ישירות למחלקת משאבי האנוש. | "כמה ימי מחלה עובדים מקבלים?" | "מסמך המדיניות אינו מציין את ימי ימי מחלה. "התייעץ עם משאבי אנוש במדיניות עזיבה מחלה". | תגובה למקרה אסור חייבת להיות מנותבת לתמיכת משאבי אנוש אנושית. |
עצה
1תרחיש סוכן: ערכת בדיקה בסיסית צריכה לכלול תרחישי בדיקה שמכסים את התרחישים או מקרי השימוש של הסוכן. השתמש בתרחיש הסוכן כהדרכה והתמקד בפעולות שהסוכן אמור לטפל בהן או להימנע מהן. תהליך זה עוזר לך להדר רשימה ייעודית של בקשות בדיקה ויש לתאם איתם באופן רציף את הוראות הפיתוח של הסוכן. כדי לקבוע את המספר הנכון של מקרי בדיקה, התחל עם בקשה אחת לבדיקה עבור כל תרחיש מפתח. התחל עם קבוצה קטנה של מקרי בדיקה, לאחר מכן בצע חזרה ומיקוד בעת קבלת תובנות ושפר את הכיסוי.
2קריטריוני קבלה: הגדר בבירור מה מהווה הצלחה. הגדרה זו עשויה להיות מאתגרת בתחילה, לכן שקול למקד את הקריטריונים שלך באמצעות אתחול. הפעל את ההנחיה לבדיקה, סקור את התגובה והערך את איכותה על-ידי שאלה: האם היא עונה על השאלה העיקרית? האם הוא משתמש במידע הנכון? האם הטון והסגנון מתאימים? האם הוא מכבד הרשאות שיתוף? התובנות שלך משאלות אלה עוזרות לך לקבוע קריטריוני קבלה, וב במידת הצורך, תגובה צפויה.
שלב 2: יצירת תוכנית בסיסית ומשפרת
מטרה: הפעל הערכות ובסס מדדים בסיסיים כדי לבצע בחינת ביצועים ולשפר.
באפשרותך לבצע הערכה באופן ידני או להשתמש בכלים מיוחדים. להערכה ידנית, שלח את הבקשה לבדיקה לסוכן, סקור את התגובה, השתמש בשיקול דעת אנושי כדי לקבוע אם היא עומדת בקריטריוני הקבלה, ותעד את התוצאה. Microsoft מציע כלים להערכת סוכן, כולל Copilot Studio הערכת סוכן.
יצירת התוכנית הבסיסית
- הפעל את מערך הבדיקות הבסיסי מול הסוכן.
- תעד מעבר או כשל עבור כל מקרה בדיקה.
- חשב את שיעור המעבר הכולל: ______%.
- תעד את גירסת הסוכן ואת תאריך הבסיס: ___________.
ניתוח וטרציה של גורם בסיס
סקור את תוצאות ההערכה כדי לזהות תוצאות חיוביות מוטעות ושליליות נכונות לצורך ניתוח נוסף. חיובי כוזב הוא תשובה שסומנה כעוברת, אך לפי שיקול דעת אנושי אמורה להיכשל. תוצאה שלילית אמיתית היא תשובה המזוהה כראוי ככשלה. הערכת המקרים שנכשלו משתי פרספקטיבות:
- בעיית מקרה בדיקה: האם הבקשה לבדיקה, התשובה הצפויה או קריטריון הקבלה גורמים לכשל?
- בעיית עיצוב סוכן: האם הכשל מציין הוראת סוכן לא ברור, או ליקויים בידע או בקביעת תצורה של כלי?
זהה את סיבת הבסיס ושפר אותה על-ידי מיקוד מקרה הבדיקה או שיפור עיצוב הסוכן.
עצה
ציון עובר הערכה: סוכנים יכולים להפיק תגובות משתנות לאותה בקשה בשל טבעם הרבירביסטי. שונות זו עשויה לגרום לתשובות לעבור או להיכשל בהתבסס על מידת הקפדה של קריטריוני הקבלה. כדי להבטיח הערכה מהימנה, הפעל כל ערכת בדיקה מספר פעמים וחשב את שיעור ההצלחה הממוצע. התמקדו בהשגת שיעור מעבר מציאותי של 80-90%, בהתאם לצרכים העסקיים שלכם.
שלב 3: יישום הרחבה מערכתית
מטרה: בנה ערכות הערכה מקיפות בקטגוריות שונות של איכות סוכן.
שלבים 1 ו- 2 הקימו את ערכת הבדיקה הבסיסית עבור מקרי השימוש העיקריים של הסוכן. לאחר מכן, הרחב את ההערכה שלך על-ידי יצירת ערכות בדיקה שמעריך קטגוריות שונות של איכות סוכן. הרשימה הבאה מציעה קטגוריות המקיימות היבטים שונים של איכות.
| קטגוריית איכות | מטרה |
|---|---|
| ליבת בסיס | מערך "חייב לעבור". הוא מזהה את איכות התגובה החיונית בפריסה ומבצע זיהוי רגרסיה במהלך הפעולה. |
| חזקות סוכן | הערך המרכזי של סוכן אחד על פני תוכנה מסורתית הוא איתנותו בטיפול במקרי שימוש שונים. ערך זה יכול לכלול:
|
| בדיקת ארכיטקטורה | הערך את הביצועים הפונקציונליים של הסוכן. הממדים יכולים לכלול:
|
| מקרי קצה | כיצד הסוכן צריך לטפל במקרה קצה עם מנגנוני הגנה.
|
עצה
הפניה למטרת הקטגוריה:
- הליבה נכשלת: משהו מנותק או אינו פועל. בדוק את השינויים האחרונים.
- כשל בעמידות: הסוכן קפדן מדי. ייתכן שהוא ממוקד יתר על המידה בניסוחים ספציפיים.
- הארכיטקטורה נכשלת: רכיב או זרימת עבודה ספציפיים דורשים איתור באגים.
- מקרי Edge נכשלים: יש לשפר את ה-Guardrails. לחזק את הגבולות.
שלב 4: יצירת פעולת הערכת שיפורי איכות רציפה
מטרה: צור ניטור הערכה רציפה כדי לשמור על איכות הסוכן במהלך הפעולה.
לאחר פריסת סוכן לייצור, הוא נכנס לשלב יציב. כדי לשמור על איכות ולאתר במהירות רגרסיות או בעיות משינויים במוצר (כגון שדרוגי מודל או עדכונים של מערכת ידע) או מקרי שימוש מתפתחים, הגדר פעולת הערכה מתמשכת. תזמן הפעלות להערכה רגילה או הפעל אותן בהתבסס על אירועים ספציפיים ל'הבטחת איכות'.
- הגדר תדירות קבועה להערכת תחזוקה.
- גורמים מפעילים מוצעים להערכת חבילה מלאה:
- שינוי מודל
- עדכון משמעותי של מערך ידע
- שילובים חדשים של כלים או מחברים
- מקרה ייצור
עצה
מחוון הצלחה: אתה מתפקד בהצלחה כאשר באפשרותך לענות על חששות של בעלי עניין בנוגע לפריטים ספציפיים, במקום לומר: "הסוכן נראה בסדר".
אתה אומר: "תאימות המדיניות היא בת 98%, אך ההתאמה האישית נפלה ל- 87%— באופן ספציפי, מדיניות המבוססת על קביעות אינה מוחלת. זיהינו את סיבת הבסיס ואנחנו מבצעים איטרציות.