מודלים מולטימודליים לניתוח תמונה

7 דקות

עצה

עיין בכרטיסייה טקסט ותמונות לפרטים נוספים!

יותר ויותר, מודלים חדשים של בינה מלאכותית הם מולטימודליים. במילים אחרות, הם תומכים במספר סוגי נתוני קלט, כולל תמונות וטקסט. מודלים מולטימודליים הם מודלים של בינה מלאכותית שיכולים להבין ולעבוד עם יותר מסוג אחד של נתונים בו-זמנית, כגון טקסט, תמונות, אודיו או וידאו. לדוגמה, המודל הרב-מודלי יכול לתאר תמונה בשפה טבעית או לענות על שאלה לגבי תמונה.

מודלים מולטימודליים משמשים בדרך כלל כחלק מ:

יישומי בינה מלאכותית, שבהם הבנת תמונות משפרת את תהליכי העבודה של המשתמש
סוכני בינה מלאכותית, שבהם קלט חזותי עוזר לסוכן לקבל החלטות טובות יותר

הדוגמאות כוללות:

סוכן שבודק מסמכים שהועלו וצילומי מסך
אפליקציית תמיכה שמנתחת תמונות שנשלחו על ידי לקוחות
כלי למידה שמסביר דיאגרמות או תרשימים בשפה פשוטה

מכיוון שמודלים מולטימודליים מקבלים גם טקסט וגם תמונות, הם מפחיתים את הצורך בצינורות ראייה נפרדים ומקל על בניית חוויות חכמות מקצה לקצה.

היכולת של מודלים לשלב הבנה חזותית עם תגובות שפה טבעית נקראת מודלים GPT עם ראייה או GPT עם ראייה. מודלים המופעלים על ידי ראייה מתוכננים להיגיון חזותי גמיש וכללי. הם יכולים לנתח קלט חזותי ולהגיב בשפה טבעית, מה שמקל על בניית יישומים חכמים ללא צורך במומחיות עמוקה בראיית מחשב.

מודלים מולטימודליים ב-Microsoft Foundry

Microsoft Foundry כוללת מודלים רבים שמקבלים קלט מבוסס תמונה, ומאפשרים לך ליצור פתרונות חכמים ומבוססי חזון. מודלים מולטימודליים ב-Microsoft Foundry מאפשרים ליישומים ולסוכנים להבין, לנתח ולהסיק חשיבה על תמונות ותוכן חזותי.

לדוגמה, מודלים של GPT עם ראייה ב-Foundry יכולים:

תאר את תוכן התמונה בשפה טבעית
ענה על שאלות לגבי אובייקטים, טקסט או סצנות בתמונה
חילוץ משמעות מתרשימים, צילומי מסך, מסמכים או תמונות
שלב הבנת תמונה עם הוראות טקסט בהנחה אחת

קטלוג הדגמים של Foundry מכיל דגמים רב-מודליים רבים, ביניהם:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: מודלים רב-תכליתיים אלו יכולים לעבד טקסט ותמונות יחד. הן משמשות בדרך כלל לתיאור תמונה ולמענה חזותי על שאלות, ניתוח מסמכים וצילומי מסך, ופרשנות תרשים ודיאגרמות.
סדרת GPT-5 (לדוגמה, GPT-5.1, GPT-5.2): משפחת GPT-5 הזמינה ב-Foundry כוללת מודלים מולטימודליים מתקדמים המיועדים לתרחישים ארגוניים וסוכנים. מודלים אלה תומכים בקלטים מולטימודליים (כולל טקסט ותמונות), בפלטים מובנים, ובשימוש בכלים, והסקה בהקשר רחב בין מודאליות. מודלי סדרת GPT-5 משמשים בדרך כלל בסוכני בינה מלאכותית ברמת ייצור וביישומים מורכבים ומולטימודליים.

Foundry גם מארחת מודלים מולטימודליים שסופקו על ידי שותפים בקטלוג הדגמים שלה, כולל מודלים מספקים כמו Anthropic ואחרים התומכים בהבנת טקסט ותמונות.

ניתוח תמונה במגרש המשחקים של היציקה

הערה

פורטל Foundry כולל ממשק משתמש קלאסי (UI) וממשק משתמש חדש .

בפורטל החדש של Microsoft Foundry, תוכל להשתמש במגרש המשחקים של המודלים כדי לשוחח עם מודל שמופעל. ניתן לבחור מודל עם אפשרות ראייה, להעלות תמונות ולבדוק פרומפטים באופן אינטראקטיבי כדי להבין כיצד המודל מפרש מידע חזותי.

לדוגמה, אפשר לצרף קובץ תמונה ולקבל את המודל הרב-מודלי (כמו gpt-4.1 mini) לנתח ולתאר אותו.

לאחר האימות, ניתן לגשת לאותן יכולות באופן תכנותי באמצעות APIs, מה שמאפשר הגשת תמונות לצד הנחיות טקסט בקוד היישום.

שימוש ב-API Azure OpenAI לניתוח תמונות

כדי לפתח אפליקציה, צריך לעבור ממגרש המשחקים של Foundry לקוד. בעורך קוד, תוכל לכתוב את קוד היישום שלך באמצעות OpenAI Responses API ב-Foundry. ממשק OpenAI Responses תוכנן לאפליקציות סוכנות ותומך בקלטים מולטימודליים מקומיים (כולל תמונות).

ברמה גבוהה:

בקשה אחת יכולה לכלול קלט טקסט וקלט תמונה יחד
ניתן לספק תמונות ככתובות URL או כנתוני תמונה מקודדים ב-base64
המודל מעבד את שני הקלטים בו-זמנית כדי לייצר תגובה

מבחינה רעיונית, מבנה ההנחיות נראה כך:

הוראה טקסטואלית (לדוגמה, אילו אובייקטים נראים בתמונה זו?)
קלט תמונה אחד או יותר מצורף לאותה בקשה

גישה זו מאפשרת למפתחים לבנות אפליקציות שבהן משתמשים מעלים תמונות ושואלים שאלות עליהן בזמן אמת.

שימוש ב-Azure OpenAI Python SDK

ניתן להשתמש במשאב Microsoft Foundry עם OpenAI API לביצוע ניתוח תמונות—כולל שליחת תמונות בפקודות וקבלת תגובות טקסט—באמצעות Responses API עם פריסת מודל עם חזון.

ניתן להתקין את ערכת הפיתוח של פייתון בטרמינל Visual Studio Code באמצעות:

pip install openai

בעורך הקוד, אפשר ליצור קובץ פייתון אחד, שמכיל קוד יישום. חשוב לציין, אתה צריך את מפתח המשאבים ונקודת הקצהשל Foundry שלך, ואת שם המודל המופעל שלך.

הערה

כשאתה מפרס מודל ב-Foundry, יש לו בסיס או שםמקורי , ושם פריסה מקורי שאתה נותן לו. Foundry מארח את המודל המופעל (למשל, מודלים מסוג GPT עם חזון) ומספק לך נקודת קצה.

בדוגמת הקוד, אתה יוצר את הלקוח, מפנה אותו לנקודת הקצה שלך, ומעביר את שם פריסת המודל (השם שנתת למודל) כ- MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

דוגמה לאפליקציית לקוח

אתה יכול לבנות אפליקציה מותאמת אישית שמשתמשת במודל שמופעל על ידי חזון כדי לנתח תמונה באמצעות ערכת הפיתוח של OpenAI Python. לדוגמה, נניח שאתה רוצה לבנות אפליקציה שיכולה לזהות חיות שצולמו בספארי. אתה יכול להעלות את התמונות שלך וליצור קובץ פייתון בעורך הקוד שלך.

צילום מסך של התמונה המשמשת לניתוח תמונה.

לאחר מכן תוכל לכתוב קוד אפליקציה שמשתמש ב-API של OpenAI כדי להתחבר לנקודת הקצה של המודל שלך ב-Foundry.

קוד האפליקציה צריך לטעון את נתוני התמונה ולקבל פקודה בשפה טבעית מהמשתמש. כדי להגיש את הקלט למודל, עליך ליצור הודעה רב-חלקית שכוללת גם את נתוני התמונה וגם את נתוני הטקסט. המודל יכול להגיב עם פלט מתאים המבוסס הן על הטקסט והן על התמונה בפקודה.

לאחר מכן, למד כיצד להשתמש במודלים של Foundry וב-Azure OpenAI SDK ליצירת תמונות.

משוב

האם עמוד זה היה מועיל?