הערכת ביצועי המודל

הושלם

הערכת המודל המופעל שלך מבטיחה שהוא עומד בסטנדרטים של איכות, מספק תגובות מדויקות ומשתפר באופן מתמיד לאורך זמן. פורטל Microsoft Foundry מציע גישות שונות להערכה, החל מבדיקות ידניות ועד מדדים אוטומטיים וזרימות הערכה מקיפות.

מדוע להעריך מודלים

ההערכה משרתת מספר מטרות קריטיות בפיתוח יישומי בינה מלאכותית גנרטיבית:

אבטחת האיכות מזהה בעיות ומבטיחה שהמודל שלך מספק תגובות מדויקות ורלוונטיות. גילוי בעיות במהלך הערכה ולא בייצור מגן על המשתמשים שלך ועל המוניטין של הארגון שלך.

שביעות רצון המשתמשים משתפרת כאשר מודלים מספקים תגובות מועילות ומתאימות באופן עקבי. הערכה עוזרת לך להבין כיצד משתמשים חווים את האפליקציה שלך והיכן השיפורים משפיעים בצורה הגדולה ביותר.

שיפור מתמיד מגיע מניתוח תוצאות ההערכה לזיהוי הזדמנויות לשיפור. הערכה שוטפת בזמן עדכון ההנחות, הוספת תכונות או הכשרה מחדש של מודלים מבטיחה איכות מתמשכת.

אימות ציות ובטיחות מאשר שהמודל שלך עומד במדיניות, נמנע מיצירת תוכן מזיק, ומכבד את דרישות פרטיות המשתמשים והגנת המידע.

גישות הערכה ידניות

הערכה ידנית כוללת את הערכת תגובות המודלים על ידי סוקרים אנושיים. למרות שזה דורש זמן רב, הערכה ידנית מספקת תובנות שמדדים אוטומטיים אינם יכולים ללכוד.

בדיקות אינטראקטיביות במגרש המשחקים מאפשרות לך לחקור את התנהגות המודלים באופן איכותני. אתה מזין הנחיות מגוונות, צופה בתגובות ומבחין בבעיות כמו מידע שגוי, טון לא מתאים או אי ביצוע הוראות. בדיקה חקרנית זו עוזרת לך להבין את החוזקות והמגבלות של המודל.

כדי לעזור לייעל את עיצוב האפליקציה שלך, תוכל לבדוק מודלים זה לצד זה במגרש המשחקים, לסנכרן את הוראות המערכת וההנחיות כדי להשוות את התגובות שלהן.

צילום מסך של מגרש הצ'אט בפורטל Microsoft Foundry.

סקירה מובנית כוללת יצירת סט של מקרי בדיקה המייצגים את מקרי השימוש של האפליקציה שלך. מעריכים אנושיים מדרגים תגובות על פי קריטריונים כגון:

  • רלוונטיות: האם התשובה מתייחסת לשאלה או לבקשה?
  • אינפורמטיביות: האם הוא מספק מספיק פרטים ומידע שימושי?
  • מעורבות: האם התגובה מעניינת ומדוברת באמת?
  • דיוק: האם עובדות והצהרות נכונות?
  • בטיחות: האם התגובה נמנעת מתוכן מזיק, מוטה או לא הולם?

מעריכים בדרך כלל משתמשים בסולמות דירוג (כגון 1-5) לכל קריטריון. דירוגים מצטברים על פני מספר מקרי בדיקה מספקים מדדים כמותיים לאיכות הכוללת.

מחקרי משתמשים אוספים משוב ממשתמשים אמיתיים או מייצגים המקשרים עם האפליקציה שלך. משוב משתמשים חושף בעיות מהעולם האמיתי שאולי תפספס בבדיקות מבוקרות, כמו ניסוח מבלבל, היעדר הקשר או ציפיות שלא נענו.

הערכה ידנית משלמת גישות אוטומטיות על ידי לכידת היבטים סובייקטיביים של איכות כמו שביעות רצון המשתמשים, התאמה הקונטקסטואלית והתאמה למותג שמדדים לבדם אינם יכולים למדוד.

מדדי הערכה אוטומטיים

הערכה אוטומטית משתמשת במדדים סטנדרטיים כדי להעריך אוטומטית את תוצרי המודל שלך. הערכות אלו מתרחבות ביעילות ומספקות מדידות עקביות ואובייקטיביות.

פורטל Microsoft Foundry תומך במספר קטגוריות של מדדי הערכה, כולל:

מדדי איכות הדור מעריכים את איכות התגובה הכוללת:

  • יציבות: קובעת האם התגובות מבוססות על הקשר שניתן ולא על השערות. Groundedness Pro מציעה הערכה בינארית (מוארקת או לא) שימושית לדרישות דיוק עובדתי.
  • רלוונטיות: מודד האם התשובות מתייחסות לשאלה או לבקשת המשתמש באופן מתאים.
  • קוהרנטיות: מעריכה האם התגובות זורמות באופן לוגי ושומרות על עקביות רעיון.
  • שטף: מעריך נכונות לשונית ואיכות שפה טבעית.

מדדי סיכון ובטיחות מזהים תוכן מזיק פוטנציאלי:

  • תוכן של פגיעה עצמית: מזהה תגובות המדברות או מעודדות פגיעה עצמית
  • תוכן שנאה ולא הוגן: מזהה הטיה, אפליה או הצהרות שנאה
  • תוכן אלים: מסמן תגובות המכילות או מקדמות אלימות
  • תוכן מיני: מזהה תוכן מיני בלתי הולם
  • חומר מוגן: מזהה אפשרות לזכויות יוצרים או שכפול תוכן קנייני
  • התקפה עקיפה (פריצת כלא): מעריכה פגיעות לניסיונות מניפולציה

במדדי נזק לתוכן, התוצאות מצטברות כקצב פגמים — אחוז התגובות העולות על סף חומרה (בדרך כלל בינוני). עבור חומר מוגן והתקפה עקיפה, שיעור הפגם מחושב כ- (true instances / total instances) × 100.

כאשר משתמשים בהערכה בסיוע בינה מלאכותית, אתה מגדיר מודל GPT לביצוע ההערכה. מודל מעריך זה מנתח את תגובות המודל המופעל ומקצה ציונים על פי הקריטריונים שנבחרו.

מדדי עיבוד שפה טבעית

מדדי NLP מספקים הערכה מבוססת מתמטיקה ללא צורך במודל מעריך. מדדים אלה לעיתים קרובות זקוקים לנתוני אמת קרקעית — תגובות צפויות או נכונות להשוואה.

ציון F1 מודד את היחס בין מילים משותפות בין תשובות אמת שנוצרו לבין תשובות יסודיות, תוך איזון בין דיוק (הימנעות ממילים שגויות) וזיכרון (כולל מילים חשובות). ציון F1 בעל ערך למשימות כמו סיווג טקסטים ושחזור מידע.

BLEU (תלמיד הערכה דו-לשוני) משווה בין n-grams (רצפי מילים) בין טקסטים נוצרים לטקסטים מקוראים, המשמשים בדרך כלל להערכת תרגום מכונה.

METEOR (מדד להערכת תרגום עם סדר מפורש) מרחיב את BLEU על ידי התחשבות במילים נרדפות, שורש ופרפרזה, ומספק השוואה גמישה יותר.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) מדגיש זיכרון על פני דיוק, מה שהופך אותו לשימושי במיוחד למשימות סיכום שבהן כיסוי נקודות מפתח חשוב יותר מהימנעות מהמילים הנוספות.

GLEU (Google-BLEU) הוא וריאנט של BLEU המיועד להערכה ברמת משפט.

מדדי NLP עובדים טוב כשיש לך תשובות נכונות חד-משמעיות או טקסטים מקושרים. הן פחות מתאימות לייצור פתוח שבו קיימות תגובות תקפות רבות.

צור הערכות מקיפות

תכונת ההערכה של פורטל Microsoft Foundry מאפשרת לך להריץ הערכות שיטתיות באמצעות מאגרי בדיקות ומדדים מרובים בו-זמנית.

אתה יכול לבסס את ההערכה שלך על אחד מהבאים:

  • מודל: העריך מודל שהופעל עם ההנחיות שציינת. המערכת מייצרת פלטים במהלך ההערכה.
  • סוכן: העריך את תגובות הסוכן באמצעות הנחיות שהוגדרו על ידי המשתמש.
  • מערך נתונים: הערך פלטים שנוצרו מראש כבר נמצאים במערך הנתונים של הבדיקה שלך.

כשמעריכים מודל או סוכן, צריך מאגר נתונים שיספק קלטים להערכה. יש לך שלוש אפשרויות:

  • העלה מערך נתונים חדש: ספק קובץ CSV או JSONL המכיל מקרי בדיקה מ-storage המקומי שלך.
  • השתמש במערך נתונים קיים: בחר מתוך מערכי נתונים שהעלית קודם לכן project.
  • יצירת מערך נתונים סינתטי: אם חסרים לך נתוני בדיקה, המערכת יכולה לייצר נתוני דוגמה בהתבסס על תיאור נושא שאתה מספק. אתה מציין את המשאב ליצירת נתונים, את מספר השורות, ואת הנחיה המתארת את הנתונים הרצויים. אתה גם יכול להעלות קבצים כדי לשפר את הרלוונטיות למשימה הספציפית שלך.

להערכת מערכי נתונים כאשר הפלטים נוצרים מראש, בחר או העלה את מערך הנתונים שלך המכיל גם קלטים וגם תגובות שנוצרו על ידי המודל.

לאחר הגדרת המדדים שברצונך לחשב, מיפוי השדות עבור נתוני ההערכה, וההנחיה של המערכת למודל; אתה יכול להתחיל את משימת ההערכה - שעשויה לקחת זמן לפעול באופן אסינכרוני, תוך עיבוד כל שורה במאגר הנתונים שלך לפי המדדים שנבחרו.

תוצאות הערכת סקירה

כאשר ההערכה מסתיימת, התוצאות מציגות ציונים מצטברים עבור המדדים שבחרת ופרטי כל נושא מבחן.

צילום מסך של תוצאות ההערכה.

חקור את ספריית המעריכים

ספריית המעריכים מספקת מיקום מרכזי לצפייה וניהול כל המעריכים הזמינים. Access אותו מדף Evaluation של project שלך על ידי בחירת לשונית <ספריית c1>Evaluator.

בספריית המעריך, אפשר:

  • צפו במעריכים שנבחרו על ידי מיקרוסופט לאיכות, בטיחות וביצועים
  • בדקו את פרטי המעריך כולל שם, תיאור, פרמטרים וקבצים נלווים
  • סקירת הנחיות להערות עבור מעריכי איכות כדי להבין כיצד מחושבים מדדים
  • בדקו הגדרות ורמות חומרה עבור מעריכי בטיחות
  • נהל מעריכים מותאמים אישית שיצרת לתרחישים ספציפיים

הספרייה תומכת בניהול גרסאות, ומאפשרת להשוות גרסאות שונות, לשחזר גרסאות קודמות במידת הצורך, ולשתף פעולה עם אחרים על מעריכים מותאמים אישית.

איטרציה על בסיס הערכה

תוצאות ההערכה מנחות את הצעדים הבאים שלך:

כאשר הציונים נמוכים מהנדרש, יש לשקול:

  • הנדסת פרומפטים: שיפור פקודות והודעות מערכת
  • מודלים שונים: מנסה מודלים מותאמים לשימוש שלך
  • אינטגרציה עם RAG: הוספת יכולות שליפה לתגובות קרקעיות בנתונים שלך
  • כיוונון עדין: אימון המודל על התחום הספציפי שלך (אם נתמך)

כל אחד מהשלבים הללו יכול לגדול במורכבות (ולפעמים בעלויות), לכן קחו זאת בחשבון בעת תכנון שיפורים.

כאשר מדדי הבטיחות מראים חששות:

  • מסנני תוכן: יישום שירותי Azure AI Content Safety
  • הקשחת השראת: הוספת הוראות בטיחות להודעות המערכת
  • אימות פלט: בדיקת תגובות לפני הצגת התגובות למשתמשים

הערכה שוטפת בזמן ביצוע שינויים עוקבת אחרי שיפורים ומבטיחה שהאיכות לא תידרדר. קבעו מדדי הערכה מוקדם בפיתוח, ואז הריצו מחדש את ההערכות לאחר שינויים כדי למדוד את ההשפעה באופן אובייקטיבי.

על ידי שילוב בדיקות ידניות, מדדים אוטומטיים וזרימות הערכה מקיפות, אתה בונה ביטחון שהמודל שלך מבצע היטב, משרת בבטחה את המשתמשים ועומד בדרישות האיכות של האפליקציה שלך.