יישם זרימות עבודה מבוססות Git בניסויי אופטימיזציה

הושלם

ניסויי אופטימיזציה דורשים ארגון שיטתי כדי לעקוב אחרי אילו שינויים נבדקו ואילו תוצאות הניבו. זרימות עבודה מבוססות Git מאפשרות לך לבדוק וריאנטים של סוכנים בצורה בטוחה, לתעד תוצאות הערכה ולהשוות ניסויים כדי לזהות איזו תצורה מתפקדת בצורה הטובה ביותר.

  1. יצירת ענף: יצירת ענף ניסוי לכל וריאנט
  2. הוספת הנחיות בדיקה: אחסן את ההנחיות במבחן בתיקיית הניסוי
  3. הרצת סקריפט הערכה: פריסת גרסת הסוכן, הרצת פתיחות בדיקה, לכידת תגובות
  4. תגובות ניקוד: הערכה ידנית של תגובות לפי מדדי איכות
  5. השווה והחלטה: סקירת תוצאות בין ענפים, מיזוג ניסויים מוצלחים

יצירת ענפי ניסוי

כל ניסוי אופטימיזציה פועל בענף נפרד, ושומר על שינויים ניסיוניים נפרדים מהסוכן הייצור שלך. צור ענף אחד לכל וריאנט ניסוי כדי לבודד מה השתנה—לבדוק פרומפט חדש, מודל שונה או התאמת קונפיגורציה אחד בכל פעם. גישה מבוקרת זו מאפשרת לייחס שינויים בביצועים לשינויים ספציפיים במקום לערבב שינויים מרובים בענף אחד.

עם Adventure Works Trail Guide Agent, אתה יוצר ענפי ניסויים כדי לבדוק וריאנטים שונים:

main                              # Production baseline (prompt v1)
experiment/prompt-v2-concise      # Test shorter, more focused prompt
experiment/prompt-v2-detailed     # Test enhanced prompt with examples
experiment/gpt4o-mini-model       # Test GPT-4o-mini model
experiment/token-optimization     # Reduce token usage

כאשר ניסוי מצליח בהערכה, אתה ממזג אותו ל-main. בניסויים שנכשלו, אפשר לשמור את הסניף כתיעוד של מה שלא עבד (כדי למנוע צוותים עתידיים לחזור על גישות לא מוצלחות) או למחוק את הסניף כדי להסיר עומס (אם תוצאות ההערכה כבר מתועדות ומחוברות).

אחסון פקודות בדיקה והרצת סקריפט הערכה

כל ענף ניסוי מארגן את הקבצים במבנה עקבי שמפריד בין קוד, פקודות ונתוני הערכה:

adventure-works-agent/
├── agent.py                                    # Agent creation script
├── run-agent.py                                # Script to run agent with test prompts
├── prompts/
│   ├── system-prompt-v1.txt                   # Production prompt
│   └── system-prompt-v2-concise.txt           # Experimental variant
├── test-prompts/
│   ├── scottish-highlands-march.txt           # Digital nomad weekend hike
│   ├── family-london-trails.txt               # Family with teenagers
│   ├── five-day-backpacking.txt               # Experienced hiker extended trip
│   ├── ambiguous-hiking-gear.txt              # Edge case: vague request
│   └── incomplete-scotland-trip.txt           # Edge case: missing details
└── experiments/
    ├── prompt-v2-concise/
    │   ├── agent-responses.json            # Raw agent outputs
    │   └── evaluation.csv                  # Manual quality scores and observations
    ├── gpt4o-mini-model/
    │   ├── agent-responses.json
    │   └── evaluation.csv
    └── token-optimization/
        ├── agent-responses.json
        └── evaluation.csv

התיקייה prompts/ מאחסנת גרסאות הprompt שונות כקבצים .txt שנטענים agent.py בעת יצירת גרסאות סוכן. התיקייה test-prompts/ מכילה קבצים נפרדים .txt לכל תרחיש בדיקה, עם שמות תיאוריים שמציינים את הצורך של המשתמש שהם מייצגים. הסקריפט run-agent.py טוען את קבצי הפרומפטים האלה, קורא לסוכן עבור כל אחד מהם ולוכד תגובות. לכל ניסוי יש תיקייה משלו שמכילה experiments/ רק את התוצאות.

קבצי הפרומפטים של הבדיקה מכילים את 5-10 תרחישי הבדיקה שלך מיחידה 2. הסקריפט run-agent.py מבצע אוטומציה של תהליך הבדיקות:

  1. תבדוק את ענף הניסוי: git checkout experiment/prompt-v2-concise
  2. פריסת גרסת סוכן: python agent.py (יוצר גרסת סוכן ב-Microsoft Foundry)
  3. הרצת הערכה: python run-agent.py (טוענת הנחיות בדיקה, קוראת לסוכן לכל פקודה, לוכדת תגובות, שומרת ל- agent-responses.json)

הסקריפט לוכד תגובות של סוכנים מה-API ושומרן ל- agent-responses.json. לאחר מכן יוצרים evaluation.csv קובץ שבו מדרגים ידנית כל תגובה באותו פורמט שבו פורטל Microsoft Foundry משתמש לייצוא הערכה.

תגובות לניקוד ידנית

בדוק את תגובות הסוכן שנקלטו ב- agent-responses.json. לבדיקות ידניות מהירות, פרקטיקה מיטבית היא לבחור שלושה עד חמישה קריטריונים להערכה שהכי חשובים לשימוש שלך, בנוסף לשדה פתוח אופציונלי להערות נוספות. צור evaluation.csv קובץ עם העמודות הללו שיתאים לפורמט הייצוא של הפורטל:

הנחיית בדיקה תגובת סוכן פתרון כוונות רלוונטיות קרקוע תגובות
סקוטיש-היילנדס-מארץ' לטיולים רגליים בהיילנדס הסקוטיים במרץ... 5 5 4 המלצות מצוינות לציוד
משפחה-לונדון-שבילי בשביל שבילים קלים ליד לונדון עם בני נוער... 4 4 5 עצה טובה למתחילים
טיול תרמילאים של חמישה ימים לטיול תרמילאים של חמישה ימים... 5 5 5 רשימה מקיפה
ציוד הליכה מעורפל איזה סוג טיול אתה מתכנן... 3 3 4 שאלות הבהרה שנשאלו
מסע לא שלם לסקוטלנד לטיולים בסקוטלנד, הייתי ממליץ... 4 4 4 עשיתי הנחות סבירות

כלול את שם קובץ הבקשת הבדיקה, קטע תגובת סוכן, ציוני איכות (סולם 1-5), והערות על איכות התגובה.

עצה

התאם את פורמט ההערכה שלך למה שניתן להעריך דרך פורטל Microsoft Foundry ועם הערכות אוטומטיות. כשאתה משתמש בקריטריוני הערכה ופורמטים עקביים של קבצים בבדיקות ידניות, הערכות פורטל ובדיקות אוטומטיות, אתה מקל על איחוד תוצאות בדיקות מחברי צוות שונים ושיטות הערכה.

השווה ניסויים והחליט

לאחר השלמת הערכות במספר ענפי ניסוי, השתמש בנתוני CSV שלך כדי להשוות ביצועים ולקבל החלטות מבוססות ראיות. תבדוק כל ענף ניסוי ותבדוק אותו evaluation.csv כדי לראות איך הוא התפקד. שים לב לממצאים המרכזיים מכל ענף, ואז ליצור השוואה כדי לזהות איזה וריאנט עומד בקריטריוני ההצלחה שלך.

לניסויים ב-Adventure Works, תוכל לתעד את ההשוואה שלך:

ענף הניסוי תצפיות מרכזיות עומדת בקריטריונים?
ראשי (קו בסיס) תגובות מוצקות, קצת מילול כן (ממוצע 4.2)
prompt-v2-תמציתי שומר על איכות, ממוקד יותר כן (ממוצע 4.4)
GPT4O-מיני-מודל איכות נמוכה יותר בהנחיות מורכבות לא (ממוצע 4.1, מתחת לסף 4.2)

אם prompt-v2-concise זה עומד בסף האיכות שלך ומשפר את התמצית, השתמש ב-Git כדי למזג את הניסוי המנצח:

git checkout main
git merge experiment/prompt-v2-concise
git tag promoted-to-prod-2026-02-17
git push origin main --tags

לניסויים שאינם עומדים בקריטריונים, תעד מדוע לפני שתחליט אם לשמור או למחוק את הסניף: "gpt4o-mini-model: האיכות ירדה מתחת לסף 4.2 בהנחיות תכנון נסיעה מורכבות. לא מומלץ לייצור."

עם זרימות עבודה ב-Git שהוקמו לארגון ניסויים, אתה מוכן לבצע את ההערכות בפועל על ידי הרצת סוכנים מול הנחיות בדיקה ודירוג שיטתי של התוצאות.