דגמים נבחרים המשתמשים במדדים
לפני שמפרסים מודל, רוצים להבין איך הוא מתפקד בממדים שונים. מדדי מודל מספקים נתונים אובייקטיביים ומדידים שיעזרו לך להשוות מודלים ולקבל החלטות בחירה מושכלות. פורטל Microsoft Foundry מציע כלים מקיפים למדידת ביצועים המאורגנים לפי מדדי איכות, בטיחות, עלות וביצועים.
מדדי מודל Access
ניתן לחקור בנצ'מרקים בשתי דרכים בתוך פורטל Microsoft Foundry:
בקטלוג המודלים, צפה בלוח המובילים של המודלים כדי לראות דירוגים השוואתיים בין כל המודלים הזמינים. תצוגה זו מסייעת לך לזהות מודלים בעלי ביצועים מובילים עבור מדדים או תרחישים מסוימים. טבלת המובילים מציגה את הדגמים המובילים המדורגים לפי איכות, בטיחות, עלות משוערת ותפוקה.
למבחני ביצועים מפורטים על דגם מסוים, פתח את כרטיס הדגם שלו ובחר בלשונית Benchmarks . תצוגה זו מראה כיצד המודל הבודד מתפקד במדדים ומאגרי נתונים שונים, כאשר גרפים השוואה ממקמים אותו ביחס למודלים דומים.
מדדי איכות
מדדי איכות מעריכים עד כמה מודל מייצר תשובות מדויקות, קוהרנטיות ומתאימות להקשר. מדדים אלו משתמשים במאגרי נתונים ציבוריים ובשיטות הערכה סטנדרטיות כדי להבטיח עקביות.
מדד האיכות מספק סקירה רחבה על ידי ממוצע ציוני דיוק על פני מספר מאגרי נתונים מדדי מדד שמודדים היגיון, ידע, מענה לשאלות, יכולות מתמטיות וכישורי קידוד. ערכי מדד איכות גבוהים יותר מצביעים על ביצועים כוללים חזקים יותר במשימות שפה כלליות.
מדדי איכות משתמשים במאגרי נתונים כגון:
- Arena-Hard - תשובות לשאלות עוינות
- BIG-Bench קשה - יכולות היגיון
- GPQA - שאלות רב-תחומיות ברמת תואר שני
- HumanEval+ו-MBPP+ - משימות יצירת קוד
- מתמטיקה - הסקה מתמטית
- MMLU-Pro - הערכת ידע כללי
- IFEval - מעקב אחרי פקודות
ציוני הבנצ'מרק הם מדדים מנורמלים הנעים מאפס לאחד, כאשר ערכים גבוהים יותר מצביעים על ביצועים טובים יותר.
מדדי בטיחות
מדדי הבטיחות מבטיחים שמודלים לא מייצרים תוכן מזיק, מוטה או לא הולם. מדדים אלו חיוניים ליישומים החשופים למשתמשי קצה, במיוחד בתעשיות מפוקחות או בתרחישים הפונים ללקוחות.
Microsoft Foundry מעריכה מודלים במגוון ממדים בטיחותיים:
זיהוי התנהגות מזיקה משתמש במדד HarmBench כדי למדוד עד כמה מודלים עמידים ליצירת תוכן לא בטוח. ההערכה מחשבת את שיעור הצלחת התקפה (ASR), כאשר ערכים נמוכים יותר מצביעים על מודלים בטוחים ועמידים יותר. HarmBench בודק שלושה תחומים פונקציונליים:
- התנהגויות מזיקות סטנדרטיות - פשיעת סייבר, פעילויות בלתי חוקיות, נזק כללי
- התנהגויות מזיקות בהקשר - מידע שגוי, הטרדה, בריונות
- הפרות זכויות יוצרים - שכפול חומר מוגן בזכויות יוצרים
זיהוי תוכן רעיל משתמש במאגר הנתונים ToxiGen כדי למדוד עד כמה מודלים מזהים דיבור שנאה עוין ומרומז. ציוני F1 גבוהים יותר מעידים על ביצועי זיהוי טובים יותר בהתייחסויות לקבוצות מיעוט.
ידע בתחום הרגיש משתמש במדד WMDP (פרוקסי נשק להשמדה המונית) כדי למדוד ידע מודלים בתחום הביו-אבטחה, סייבר וביטחון כימי. ציונים גבוהים יותר בנשק להשמדה המונית מעידים על ידע רב יותר על יכולות מסוכנות פוטנציאליות.
ציוני בטיחות עוזרים להבין את עמידות המודלים, במיוחד ביישומים הפונים ללקוחות שבהם תוצרים מזיקים יוצרים חששות משמעותיים.
מדדי עלות
הבנת ההשפעה הכלכלית של שימוש במודלים מסייעת לך לאזן בין דרישות איכות למגבלות תקציב. מדדי ביצועים ב-Microsoft Foundry מציגים תמחור לפריסות API ללא שרת ומודלים של Azure OpenAI.
עלות לכל קלט טוקנים מראה את המחיר לעיבוד מיליון טוקני קלט (הטקסט שאתה שולח למודל).
עלות לכל טוקנים מציין את המחיר ליצירת מיליון טוקני פלט (הטקסט שהמודל מייצר).
העלות המוערכת משלבת עלויות קלט ופלט באמצעות יחס טיפוסי של 3:1 (שלושה טוקני קלט לכל אסימון פלט), ונותנת לך מספר אחד להשוואה. ערכים נמוכים יותר מצביעים על מודלים חסכוניים יותר.
מדדי עלויות עוזרים לך לזהות מודלים שמספקים את האיכות שאתה צריך במחיר שמתאים לדפוסי השימוש ולתקציב של האפליקציה שלך.
מדדי ביצועים
מדדי ביצועים מודדים עד כמה המודלים מגיבים במהירות וביעילות לבקשות. מדדים אלו חשובים ליישומים בזמן אמת שבהם חוויית המשתמש תלויה בתגובתיות.
מדידות השהייה כוללות:
- ממוצע השהיה - זמן ממוצע בשניות לעיבוד בקשה
- השהיה P50 (חציון) - 50% בקשות שהושלמו מהר יותר מהזמן הזה
- השהיה P90 - 90% בקשות מסתיימות מהר יותר מהזמן הזה
- השהיה P95 - 95% של בקשות הושלמו מהר יותר מהזמן הזה
- השהיה P99 - 99% של בקשות הושלמו מהר יותר מהזמן הזה
- זמן לטוקן הראשון (TTFT) - זמן עד שהגעת הטוקן הראשון בעת שימוש בסטרימינג
מדידות התפוקה כוללות:
- טוקנים שנוצרו לשנייה (GTPS) - טוקנים שנוצרים בשנייה
- סך טוקנים לשנייה (TTPS) - טוקנים משולבים של קלט ופלט המעובדים בשנייה
- הזמן בין טוקנים - מרווח בין קבלת טוקנים עוקבים
טבלת המובילים מסכמת ביצועים באמצעות זמן ממוצע לטוקן הראשון (נמוך זה טוב יותר) וממוצע טוקנים שנוצרו לשנייה (גבוה זה טוב יותר). מודלים בעלי תפוקה גבוהה והשהייה נמוכה מספקים חוויות משתמש טובות יותר ביישומים אינטראקטיביים. בעבודות עיבוד אצווה שבהן המהירות פחות חשובה מהעלות, אפשר לתת עדיפות לגורמים אחרים.
השתמש בטבלאות מובילים ותכונות השוואה
טבלת הדירוג של המודלים מאפשרת לך לצפות במודלים המובילים עבור מדדים ספציפיים. אתה יכול למיין לפי איכות, בטיחות, עלות מוערכת ותפוקה כדי לזהות דגמים שמתאימים ביותר לצרכים שלך.
טבלאות תוצאות תרחישים עוזרות לך למצוא מודלים מותאמים למקרי שימוש ספציפיים כמו היגיון, קידוד, מתמטיקה, מענה לשאלות או יציבות. אם האפליקציה שלך מתאימה לתרחיש מסוים, התחל עם טבלת הדירוג הרלוונטית במקום להסתמך רק על מדד איכות כולל.
טבלאות פשרה מציגות שני מדדים בו-זמנית, כמו איכות מול עלות או איכות מול קצב העברה. הדמיות אלו עוזרות לך למצוא את האיזון האופטימלי לצרכים שלך. השתמשו בתפריט הנפתח כדי להשוות איכות מול עלות, קצב העברה או בטיחות. מודלים הקרובים לפינה הימנית העליונה של הטבלה מבצעים ביצועים טובים בשני המדדים. דגם שהוא מעט פחות מדויק אבל מהיר או זול בהרבה עשוי לשרת את הצרכים שלך טוב יותר.
השוואה זו לצד מאפשרת לבחור שניים או שלושה דגמים מטבלת המובילים ולהשוות ביניהם בין ממדים שונים:
- מדדי ביצועים (איכות, בטיחות, קצב העברה)
- פרטי מודל (חלון הקשר, נתוני אימון, שפות נתמכות)
- נקודות קצה נתמכות (אפשרויות פריסה)
- תמיכה בתכונות (קריאת פונקציות, פלט מובנה, חזון)
בחר דגמים על ידי סימון תיבות ליד שמותיהם, ואז בחר השוואה כדי לפתוח את תצוגת ההשוואה המפורטת.