אודות הערכת סוכן

כאשר סוכני בינה מלאכותית משתתפים בתפקידים קריטיים בתהליכים עסקיים, הצורך בבדיקה מהימנה וניתנת להפעלה חוזרת נעשה חיוני. הערכת סוכן מאפשרת לך ליצור בדיקות המדמה תרחישים מהעולם האמיתי עבור הסוכן שלך. בדיקות אלה מכסות יותר שאלות ושיחות מהר יותר מבדיקות ידניות, לפי מקרה. לאחר מכן , תוכל למדוד את הדיוק, הרלוונטיות והאיכותיים של תשובות על האינטראקציות של הסוכן שלך, בהתבסס על המידע שהסוכן יכול לגשת אליו. על-ידי שימוש בתוצאות מערכת הבדיקה, באפשרותך למטב את אופן הפעולה של הסוכן שלך ולאמת שהסוכן שלך עומד בדרישות העסק והאיכות שלך.

מדוע להשתמש בבדיקות אוטומטיות?

הערכת סוכן מספקת בדיקות מובנות אוטומטיות. הוא מסייע בקליטת בעיות בשלב מוקדם, מפחית את הסיכון לתשובות שגויות ושומרת על איכות ככל שהסוכן מתפתח. תהליך זה מביא צורה אוטומטית וניתנת להפעלה חוזרת של הבטחת איכות לבדיקת סוכן. הוא מוודא שהסוכן עומד בתקני הדיוק והמהימנות של העסק שלך ומספק שקיפות לגבי אופן הביצועים שלו. יש לו נקודות חוזק שונות מאשר בדיקה באמצעות צ'אט הבדיקה.

הפעל הערכות ועיין בתוצאות באמצעות ממשק Copilot Studio, באמצעות ממשקי API של REST Platform או באמצעות פעולות חוצות בכלים, זרימות או Power Automate.

הערכת סוכן מודדת נכונות וביצועים, לא אתיקה של בינה מלאכותית או בעיות בטיחות. סוכן עשוי לעבור את כל בדיקות ההערכה, אך עדיין, לדוגמה, ליצור תשובה בלתי הולמת לשאלה. הלקוחות עדיין צריכים להשתמש בביקורות של יישום אחראי של בינה מלאכותית ובמסנני בטיחות תוכן; הערכות אינן מחליפות ביקורות ומסננים אלה.

מגבלות ענן של קהילת הממשלה

הערכת סוכן בסביבות Government Community Cloud (GCC) כוללות את המגבלות הבאות:

לי יצרנים אין אפשרות להוסיף פרופיל משתמש לערכות הבדיקה שלהם. עם זאת, יוצרי עדיין יכולים להפעיל הערכות ללא פרופיל משתמש.
לי יצרנים אין אפשרות להשתמש בשיטה לבדיקת דמיון להערכות. כל שאר שיטות הבדיקה זמינות.

כיצד פועלת הערכת סוכן

Copilot Studio משתמשת בתיק בדיקה לכל הערכת סוכן. מקרה בדיקה הוא אינטראקציה יחידה המדמה את האופן שבו משתמש מקיים אינטראקציה עם הסוכן שלך. האינטראקציה יכולה להיות שאלה אחת או שיחה שלמה.

מקרה בדיקה יכול גם לכלול את התשובה שאתה מצפה מהסוכן שלך להשיב באמצעותה. לדוגמה:

השאלה: מהן שעות העבודה שלך?
התגובה הצפויה: אנו פתוחים מ- 9:00 עד 17:00 בימים שני עד שישי.

באמצעות הערכת סוכן, באפשרותך ליצור, לייבא או לכתוב באופן ידני קבוצה של מקרי בדיקה. קבוצה זו של מקרי בדיקה נקראת ערכת בדיקה. ערכת בדיקה מאפשרת לך:

הפעל מקרי בדיקה מרובים המכסים מגוון רחב של יכולות בו-זמנית, במקום לשאול את הסוכן שאלה אחת בכל פעם.
נתח את ביצועי הסוכן שלך באמצעות ציון מצטבר קל לעיכול וכן הגדל את התצוגה של מקרי בדיקה בודדים.
בדוק שינויים בסוכנים שלך באמצעות אותה ערכת בדיקה, כך שיש לך תקן יעדים למדידת שינויים בביצועים ולהשוות אותם.
צור במהירות ערכות בדיקה חדשות או שנה ערכות בדיקה קיימות כדי לכסות יכולות או דרישות משתנות של סוכן.

כל ערכת בדיקה יכולה להעריך את הסוכן שלך באמצעות שיטות בדיקה מרובות בבת אחת.

באפשרותך גם לבחור פרופיל משתמש שפעל כמשתמש מגורה. ייתכן שהסוכן מוגדר להגיב למשתמשים שונים בדרכים שונות, או לאפשר גישה למשאבים בדרכים שונות.

בעת בחירת ערכת בדיקה ו- הפעל הערכת סוכן, Copilot Studio שולח את השאלות במקרי הבדיקה, מתעד את התגובות של הסוכן, משווה תגובות אלה לתגובות צפויות או לתקן איכות, ומקצה ציון לכל מקרה בדיקה. באפשרותך גם לראות את הפרטים, התעתיק ומפת הפעילות עבור כל מקרה בדיקה ואת המשאבים שהסוכן שלך השתמש בהם כדי ליצור את התגובה.

צור אסטרטגיית הערכה מקיפה

לפני שתפעיל הערכות, הגדר את ההצלחה עבור הסוכן שלך והחלט אילו תרחישים חשובים ביותר לתוצאות העסקיות שלך. אסטרטגיה ברורה עוזרת לך לבחור את שיטות הבדיקה הנכונות, לתעדף מקרי בדיקה בעלי השפעה גבוהה ולפרש את התוצאות בהקשר הנכון.

השתמש בפתרונות סוכן אדריכלי: מסגרות הערכה כדי למפות יעדים עסקיים לממדים ולגישה להערכה הניתנת למדידה וללינוי ניקוד.
השתמש בעיצוב ובתפעול הערכת סוכן כדי לבנות תהליך הערכה חוזר ותומך בשיפורי איכות מתמשכת.

שילוב ההערכות בזרימות אוטומטיות

הערכת סוכן תומכת באוטומציה כך היוצרים יכולים להפעיל הערכות ללא התערבות ידנית. באמצעות ממשקי REST API או מחברים של Power Platform, באפשרותך להפעיל הפעלות הערכה באופן תיכנותי ולשלב בדיקות בזרימות עבודה אוטומטיות כגון שילוב רציף וצינורות של פריסה רציפה (CI/CD). גישה זו מאפשרת לך להפעיל ערכות בדיקה בקנה מידה ולאמת אופן פעולה של סוכן בעת הצגת שינויים, מבלי לדרוש ביצוע ידני ב- Copilot Studio.

בדיקת צ'אט לעומת הערכת סוכן

כל שיטת בדיקה מספקת לך תובנות שונות לגבי התכונות וההתנהגות של הסוכן שלך:

בדיקת צ'אט:

מקבל ומגיב לשאלה אחת בכל פעם. קשה לחזור על אותן בדיקות כמה פעמים.
מאפשר לך לבדוק הפעלה מלאה שכוללת הודעות מרובות.
מאפשר לך לקיים אינטראקציה עם הסוכן שלך כמשתמש באמצעות ממשק צ'אט.

הערכת סוכן:

יכול ליצור ולהפעיל מקרי בדיקה מרובים בו-זמנית באמצעות ערכת בדיקה. באפשרותך לחזור על בדיקות על-ידי בדיקה עם אותה ערכת בדיקה.
יכול לבדוק שאלה אחת ותגובה אחת לכל מקרה בדיקה, או שיחה אחת לכל מקרה בדיקה. עם זאת, יש לך פחות שליטה על השיחות מאשר בעת השימוש בצ'אט הבדיקה.
בחר פרופילי משתמשים שונים כדי לדמות משתמשים שונים מבלי שתצטרך להשלים את האינטראקציות בעצמך.

בעת בדיקת סוכן, השתמש הן בצ'אט הבדיקה והן בהערכת סוכן לקבלת תמונה מלאה של הסוכן שלך.

משוב

האם עמוד זה היה מועיל?

Last updated on 2026-04-22