نماذج متعددة الوسائط لتحليل الصور

7 دقائق

نصيحة

راجع علامة التبويب النص والصور لمزيد من التفاصيل!

بشكل متزايد، أصبحت نماذج الذكاء الاصطناعي الجديدة متعددة الوسائط. بعبارة أخرى، تدعم أنواعا متعددة من بيانات الإدخال، بما في ذلك الصور والنصوص. النماذج متعددة الوسائط هي نماذج ذكاء اصطناعي يمكنها فهم والعمل مع أكثر من نوع واحد من البيانات في نفس الوقت، مثل النص أو الصور أو الصوت أو الفيديو. على سبيل المثال، يمكن للنموذج متعدد الوسائط وصف صورة بلغة طبيعية أو الإجابة على سؤال حول صورة فوتوغرافية.

تستخدم النماذج متعددة الوسائط عادة كجزء من:

تطبيقات الذكاء الاصطناعي، حيث يعزز فهم الصور سير عمل المستخدم
وكلاء الذكاء الاصطناعي، حيث تساعد المدخلات البصرية الوكيل على اتخاذ قرارات أفضل

تتضمن الأمثلة ما يلي:

وكيل يراجع المستندات المرفوعة ولقطات الشاشة
تطبيق دعم يحلل الصور التي يقدمها العملاء
أداة تعليمية تشرح المخططات أو المخططات بلغة بسيطة

نظرا لأن النماذج متعددة الوسائط تقبل النص والصور معا، فإنها تقلل الحاجة إلى خطوط رؤية منفصلة وتسهل بناء تجارب ذكية متكاملة.

القدرة على النماذج على دمج الفهم البصري مع استجابات اللغة الطبيعية تسمى نماذج GPT المدعومة بالرؤية أو GPT مع الرؤية. تم تصميم النماذج المدعومة بالرؤية للتفكير البصري المرن والعام الاستخدام. يمكنها تحليل المدخلات البصرية والرد باللغة الطبيعية، مما يسهل بناء تطبيقات ذكية دون الحاجة إلى خبرة عميقة في رؤية الحاسوب.

النماذج متعددة الوسائط في مايكروسوفت فاوندري

تتضمن Microsoft Foundry العديد من النماذج التي تقبل المدخلات القائمة على الصور، مما يمكنك من إنشاء حلول ذكية قائمة على الرؤية. تسمح النماذج متعددة الوسائط في مايكروسوفت فاوندري للتطبيقات والوكلاء بفهم وتحليل والتفكير في الصور والمحتوى البصري.

على سبيل المثال، نماذج GPT المدعومة بالرؤية في Foundry يمكن أن:

وصف محتوى الصورة بلغة طبيعية
أجب عن أسئلة حول الأشياء أو النص أو المشاهد في صورة
استخلاص المعنى من الرسوم البيانية أو لقطات الشاشة أو المستندات أو الصور
اجمع بين فهم الصورة والتعليمات النصية في طلب واحد

يحتوي كتالوج نماذج فاوندري على العديد من النماذج متعددة الوسائط بما في ذلك:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: هذه النماذج متعددة الوسائط متعددة الأغراض العامة يمكنها معالجة النصوص والصور معا. تستخدم عادة لوصف الصور والإجابة البصرية على الأسئلة، وتحليل المستندات ولقطات الشاشة، وتفسير الرسوم البيانية والمخططات.
سلسلة GPT-5 (على سبيل المثال، GPT-5.1، GPT-5.2): عائلة GPT-5 المتوفرة في Foundry تتضمن نماذج متعددة الوسائط متقدمة مصممة للسيناريوهات المؤسسية والوكالية. تدعم هذه النماذج المدخلات متعددة الوسائط (بما في ذلك النصوص والصور)، والمخرجات المنظمة، واستخدام الأدوات، والتفكير في السياق الكبير عبر الوسائط. تستخدم نماذج سلسلة GPT-5 عادة في وكلاء الذكاء الاصطناعي من فئة الإنتاج والتطبيقات متعددة الوسائط المعقدة.

تستضيف فاوندري أيضا نماذج متعددة الوسائط مقدمة من الشركاء في كتالوج نماذجها، بما في ذلك نماذج من مزودين مثل Anthropic وغيرهم تدعم فهم النصوص والصور.

تحليل الصور في ملعب Foundry

‏‫ملاحظة‬

بوابة Foundry تحتوي على واجهة مستخدم كلاسيكية (UI) وواجهة مستخدم جديدة .

في بوابة Microsoft Foundry الجديدة، يمكنك استخدام ملعب النماذج للدردشة مع نموذج تم نشره. يمكنك اختيار نموذج مدعوم بالرؤية، ورفع الصور، واختبار التعليمات بشكل تفاعلي لفهم كيفية تفسير النموذج للمعلومات البصرية.

على سبيل المثال، يمكنك إرفاق ملف صورة والحصول على نموذج متعدد الوسائط (مثل gpt-4.1 mini) لتحليله ووصفه.

بمجرد التحقق من صحتها، يمكن الوصول إلى نفس القدرات برمجيا باستخدام واجهات برمجة التطبيقات (APIs)، مما يسمح بإرسال الصور إلى جانب التنبيهات النصية في كود التطبيق.

استخدام واجهة برمجة تطبيقات Azure OpenAI لتحليل الصور

لكي تطور تطبيقا، تحتاج إلى الانتقال من ساحة Foundry إلى البرمجة. في محرر الكود، يمكنك كتابة كود التطبيق باستخدام واجهة برمجة تطبيقات OpenAI Responses في Foundry. تم تصميم واجهة برمجة تطبيقات OpenAI Responses للتطبيقات الوكالية وتدعم المدخلات متعددة الوسائط الأصلية (بما في ذلك الصور).

على مستوى عالي:

يمكن أن يتضمن طلب واحد إدخال نص وإدخال صورة معا
يمكن توفير الصور كروابط URL أو كبيانات صورة مشفرة في base64
يعالج النموذج كلا المدخلين في نفس الوقت لتوليد استجابة

من الناحية المفاهيمية، يبدو هيكل المحفزات كما يلي:

تعليمات نصية (على سبيل المثال، ما هي الأشياء المرئية في هذه الصورة؟)
تم إرفاق صورة أو أكثر بنفس الطلب

يتيح هذا النهج للمطورين بناء تطبيقات يقوم فيها المستخدمون برفع الصور وطرح الأسئلة عنها في الوقت الفعلي.

باستخدام حزمة تطوير تطوير Azure OpenAI Python

يمكنك استخدام مورد Microsoft Foundry مع واجهة برمجة تطبيقات OpenAI لإجراء تحليل الصور—بما في ذلك إرسال الصور في التعليمات والحصول على ردود نصية—وذلك باستخدام واجهة برمجة تطبيقات الاستجابات مع نموذج قادر على الرؤية القابلة للنشر.

يمكن تثبيت حزمة تطوير تطوير بايثون في محطة كود فيجوال ستوديو باستخدام:

pip install openai

في محرر الكود، يمكننا إنشاء ملف بايثون واحد يحتوي على كود التطبيق. الأهم، تحتاج إلى مفتاحالموارد في Foundryونقطة النهاية، واسم النموذج الذي تم نشره.

‏‫ملاحظة‬

عندما تنشر نموذجا في Foundry، يكون له اسم أساسي أو أصلي ، واسم نشر أصلي تعطيه له. تستضيف Foundry النموذج المنشور (على سبيل المثال، نماذج GPT ذات الرؤية) وتوفر لك نقطة نهاية.

في مثال الكود، تقوم بإنشاء العميل، وتوجيهه إلى نقطة النهاية الخاصة بك، وتمرر اسم نشر النموذج (الاسم الذي أعطيته للنموذج) ك .MODEL_NAME

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

مثال على تطبيق العميل

يمكنك بناء تطبيق مخصص يستخدم نموذجا مدعوما بالرؤية لتحليل صورة باستخدام حزمة تطوير تطوير تطوير OpenAI Python. على سبيل المثال، لنفترض أنك تريد بناء تطبيق يمكنه تحديد الحيوانات التي تم تصويرها على سفاري. يمكنك رفع صورك وإنشاء ملف بايثون في محرر الكود الخاص بك.

لقطة شاشة للصورة المستخدمة في تحليل الصورة.

بعدها يمكنك كتابة كود تطبيق يستخدم واجهة برمجة تطبيقات OpenAI للاتصال بنقطة نهاية نموذجك في Foundry.

يحتاج كود التطبيق إلى تحميل بيانات الصورة والحصول على تنبيه لغة طبيعية من المستخدم. لتقديم المدخلات إلى النموذج، تحتاج إلى إنشاء رسالة متعددة الأجزاء تتضمن كل من بيانات الصورة والنص. يمكن للنموذج الاستجابة بمخرج مناسب بناء على كل من النص والصورة في الطلب.

بعد ذلك، تعلم كيفية استخدام نماذج Foundry وحزمة تطوير Azure OpenAI لتوليد الصور.

الملاحظات

هل كانت هذه الصفحة مفيدة؟