Görüntü analizi için çok modüllü modeller

7 dakika

Uyarı

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

Yeni yapay zeka modelleri giderek daha çok modüle sahip. Başka bir deyişle, görüntüler ve metinler de dahil olmak üzere birden çok giriş verisi türünü destekler. Çok modüllü modeller metin, resim, ses veya video gibi birden fazla veri türünü aynı anda anlayıp bunlarla çalışabilen yapay zeka modelleridir. Örneğin, çok modüllü model bir görüntüyü doğal dilde açıklayabilir veya fotoğrafla ilgili bir soruyu yanıtlayabilir.

Çok modüllü modeller yaygın olarak şunların bir parçası olarak kullanılır:

Görüntü anlamanın kullanıcı iş akışlarını geliştirdiği yapay zeka uygulamaları
Yapay zeka aracıları, görsel girişin aracının daha iyi kararlar vermesine yardımcı olur

Örnekler şunları içerir:

Karşıya yüklenen belgeleri ve ekran görüntülerini inceleyen bir yazılım aracısı
Müşteriler tarafından gönderilen fotoğrafları analiz eden bir destek uygulaması
Diyagramları veya grafikleri düz dilde açıklayan bir öğrenme aracı

Çok modüllü modeller hem metinleri hem de görüntüleri kabul ettiğinden ayrı görüntü işleme işlem hatlarına olan ihtiyacı azaltır ve uçtan uca akıllı deneyimler oluşturmayı kolaylaştırır.

Modellerin görsel anlama ile doğal dil yanıtlarını birleştirme özelliği , görüntü işleme özellikli GPT modelleri veya görme ile GPT olarak adlandırılır. Görsel özellikli modeller esnek, genel amaçlı görsel akıl yürütme için tasarlanmıştır. Görsel girişleri analiz edebilir ve doğal dilde yanıt verebilir, böylece derin görüntü işleme uzmanlığına ihtiyaç duymadan akıllı uygulamalar oluşturmayı kolaylaştırır.

Microsoft Foundry'de çok modüllü modeller

Microsoft Foundry, görüntü tabanlı girişi kabul eden birçok model içerir ve akıllı, görüntü tabanlı çözümler oluşturmanıza olanak tanır. Microsoft Foundry'deki çok modüllü modeller, uygulamaların ve aracıların görüntüleri ve görsel içeriği anlamasına, analiz etmesine ve üzerinde mantık yürütmesine olanak tanır.

Örneğin, Foundry'deki görüntü özellikli GPT modelleri şunları yapabilir:

Bir görüntünün içeriğini doğal dilde açıklama
Resimdeki nesneler, metinler veya sahneler hakkındaki soruları yanıtlama
Grafiklerden, ekran görüntülerinden, belgelerden veya fotoğraflardan anlam ayıklama
Görüntü anlama ile metin yönergelerini tek bir komut isteminde birleştirme

Foundry'nin model kataloğu aşağıdakiler dahil olmak üzere birçok çok modüllü model içerir:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Bu genel amaçlı çok modüllü GPT modelleri metin ve görüntüleri birlikte işleyebilir. Bunlar genellikle görüntü açıklaması ve görsel soru yanıtlama, belge ve ekran görüntüsü analizi ile grafik ve diyagram yorumlama için kullanılır.
GPT-5 serisi (örneğin, GPT-5.1, GPT-5.2): Foundry'de bulunan GPT-5 ailesi, kurumsal ve aracı senaryolar için tasarlanmış gelişmiş çok modüllü modeller içerir. Bu modeller çok modlu girişleri (metin ve görüntüler dahil), yapılandırılmış çıkışları ve araç kullanımını, çeşitli modaliteler arasında büyük bağlamlı mantık yürütmeyi destekler. GPT-5 serisi modeller genellikle üretim sınıfı yapay zeka aracılarında ve karmaşık çok modüllü uygulamalarda kullanılır.

Foundry ayrıca Anthropic gibi sağlayıcılardan ve metin ile görüntü anlama desteği sunan diğer sağlayıcılardan alınan modeller dahil olmak üzere, iş ortakları tarafından sağlanan çok modellerli modelleri model kataloğunda barındırıyor.

Foundry Playground'da görüntü analizi

Uyarı

Döküm portalında bir klasik kullanıcı arabirimi (UI) ve bir yeni kullanıcı arabirimi vardır.

Yeni Microsoft Foundry portalında, dağıtılan bir modelle sohbet etmek için model oyun alanı kullanabilirsiniz. Modelin görsel bilgileri nasıl yorumladığını anlamak için görsel özellikli bir model seçebilir, görüntüleri karşıya yükleyebilir ve istemleri etkileşimli olarak test edebilirsiniz.

Örneğin, bir görüntü dosyası ekleyebilir ve analiz etmek ve açıklamak için çok modüllü modeli (gpt-4.1 mini gibi) alabilirsiniz.

Doğrulandıktan sonra, aynı özelliklere API'ler kullanılarak program aracılığıyla erişilebilir ve uygulama kodundaki metin istemleriyle birlikte görüntülerin gönderilmesine izin verilir.

Görüntü analizi için Azure OpenAI API'sini kullanma

Uygulama geliştirmek için Foundry oyun alanından koda geçmeniz gerekir. Kod düzenleyicisinde, Uygulama kodunuzu Foundry'deki OpenAI Yanıtları API'sini kullanarak yazabilirsiniz. OpenAI Yanıtları API'si aracı uygulamalar için tasarlanmıştır ve yerel çok modüllü girişleri (görüntüler dahil) destekler.

Üst düzeyde:

Tek bir istekte metin girişi ve görüntü girişi birlikte bulunabilir
Görüntüler URL'ler veya base64 ile kodlanmış görüntü verileri olarak sağlanabilir
Model, bir yanıt oluşturmak için her iki girişi de aynı anda işler

Kavramsal olarak, istem yapısı şöyle görünür:

Metin yönergesi (örneğin, bu görüntüde hangi nesneler görünür?)
Aynı isteğe bağlı bir veya daha fazla görüntü girişi

Bu yaklaşım, geliştiricilerin kullanıcıların gerçek zamanlı olarak görüntü yüklediği ve bunlar hakkında sorular sorduğu uygulamalar oluşturmasına olanak tanır.

Azure OpenAI Python SDK'sını kullanma

OpenAI API'si ile bir Microsoft Foundry kaynağı kullanarak, görsel algılama özellikli bir model dağıtımıyla Yanıtlar API'sini kullanabilir ve görüntü analizi yapabilirsiniz; buna istemlerde görüntü gönderme ve metin yanıtları alma da dahildir.

Python SDK'sı Visual Studio Code terminalinde aşağıdakiler kullanılarak yüklenebilir:

pip install openai

Kod düzenleyicisinde uygulama kodu içeren bir Python dosyası oluşturabiliriz. Önemli olan, Foundry kaynakanahtarınıza, uç noktanıza ve dağıtılan modelinizin adına ihtiyacınız vardır.

Uyarı

Foundry'de bir model dağıttığınızda temel veyaözgün bir adı ve verdiğiniz özgün dağıtım adı vardır. Foundry platformu, dağıtılmış modeli (örneğin, görme özelliklerine sahip GPT sınıfı modeller) barındırır ve size bir uç nokta sağlar.

Kod örneğinde istemciyi oluşturur, uç noktanıza işaret eder ve model dağıtım adınızı (modele vermiş olduğunuz ad) olarak MODEL_NAMEgeçirirsiniz.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

İstemci uygulaması örneği

OpenAI Python SDK'sı ile görüntü analiz etmek için görüntü özellikli bir model kullanan özel bir uygulama oluşturabilirsiniz. Örneğin, Safari'de fotoğraflanan hayvanları tanımlayabilen bir uygulama oluşturmak istediğinizi varsayalım. Fotoğraflarınızı karşıya yükleyebilir ve kod düzenleyicinizde bir Python dosyası oluşturabilirsiniz.

Görüntü analizi için kullanılan görüntünün ekran görüntüsü.

Ardından, Modelinizin Foundry'deki uç noktasına bağlanmak için OpenAI API'sini kullanan uygulama kodu yazabilirsiniz.

Uygulama kodunun görüntü verilerini yüklemesi ve bir kullanıcıdan doğal dil istemi alması gerekir. Girişi modele göndermek için hem görüntü hem de metin verilerini içeren çok parçalı bir ileti oluşturmanız gerekir. Model, istemdeki hem metin hem de görüntüye göre uygun bir çıkışla yanıt verebilir.

Ardından, görüntü oluşturma için Foundry modellerini ve Azure OpenAI SDK'sını kullanmayı öğrenin.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?