Modele wielomodalne do analizy obrazów
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
Coraz częściej nowe modele sztucznej inteligencji są wielomodalne. Innymi słowy, obsługują one wiele rodzajów danych wejściowych, w tym obrazy i tekst. Modele wielomodalne to modele sztucznej inteligencji, które mogą zrozumieć i pracować z więcej niż jednym typem danych w tym samym czasie, takimi jak tekst, obrazy, dźwięk lub wideo. Na przykład model wielomodalny może opisywać obraz w języku naturalnym lub odpowiedzieć na pytanie dotyczące zdjęcia.
Modele wielomodalne są często używane w ramach:
- Aplikacje sztucznej inteligencji, w których zrozumienie obrazu zwiększa przepływy pracy użytkowników
- Agenci sztucznej inteligencji, gdzie dane wejściowe wizualne pomagają agentowi podejmować lepsze decyzje
Oto kilka przykładów:
- Agent, który przegląda przekazane dokumenty i zrzuty ekranu
- Aplikacja pomocy technicznej, która analizuje zdjęcia przesłane przez klientów
- Narzędzie szkoleniowe, które wyjaśnia diagramy lub wykresy w języku prostym
Ponieważ modele wielomodalne akceptują zarówno tekst, jak i obrazy, zmniejszają potrzebę oddzielnych ścieżek przetwarzania obrazów i ułatwiają tworzenie kompleksowych inteligentnych doświadczeń.
Możliwość łączenia rozumienia wizualnego z odpowiedziami języka naturalnego jest określana jako modele GPT z wbudowaną obsługą wizji lub GPT z funkcją wizji. Modele z obsługą wizji są zaprojektowane z myślą o elastycznym, wizualnym rozumowaniu ogólnego przeznaczenia. Mogą analizować dane wejściowe wizualne i reagować w języku naturalnym, co ułatwia tworzenie inteligentnych aplikacji bez konieczności posiadania głębokiej wiedzy z zakresu przetwarzania obrazów.
Modele wielomodalne w rozwiązaniu Microsoft Foundry
Firma Microsoft Foundry zawiera wiele modeli, które akceptują dane wejściowe oparte na obrazach, umożliwiając tworzenie inteligentnych rozwiązań opartych na obrazach. Modele wielomodalne w rozwiązaniu Microsoft Foundry umożliwiają aplikacjom i agentom zrozumienie, analizowanie i rozumowanie obrazów i zawartości wizualnej.
Na przykład modele GPT z obsługą przetwarzania obrazów w narzędziu Foundry mogą:
- Opisywanie zawartości obrazu w języku naturalnym
- Odpowiadanie na pytania dotyczące obiektów, tekstu lub scen na obrazie
- Wyodrębnianie znaczenia z wykresów, zrzutów ekranu, dokumentów lub zdjęć
- Łącz zrozumienie obrazu z instrukcjami tekstowymi w jednym poleceniu.
Wykaz modeli Foundry zawiera wiele modeli wielomodalnych, w tym:
GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Te wielomodalne modele GPT ogólnego przeznaczenia mogą przetwarzać tekst i obrazy razem. Są one często używane do opisu obrazu i wizualnego odpowiadania na pytania, analizy dokumentów i zrzutów ekranu oraz interpretacji wykresu i diagramu.
Seria GPT-5 (na przykład GPT-5.1, GPT-5.2): Rodzina GPT-5 dostępna w rozwiązaniu Foundry obejmuje zaawansowane modele wielomodalne przeznaczone dla przedsiębiorstw i scenariuszy agentycznych. Modele te obsługują wielomodalne dane wejściowe (w tym tekst i obrazy), dane wyjściowe ze strukturą i użycie narzędzi, rozumowanie w dużych kontekstach między modalnościami. Modele serii GPT-5 są zwykle używane w agentach sztucznej inteligencji klasy produkcyjnej i złożonych aplikacjach wielomodalnych.
Foundry hostuje również modele wielomodalne udostępniane przez partnerów w katalogu modeli, w tym modele od dostawców, takich jak Anthropic i inne, które obsługują interpretację tekstu i obrazu.
Analiza obrazu na placu zabaw z narzędziem Foundry
Uwaga / Notatka
Portal Foundry ma klasyczny interfejs użytkownika i nowy interfejs użytkownika.
W nowym portalu Microsoft Foundry możesz użyć placu zabaw dla modelu, aby porozmawiać z wdrożonym modelem. Możesz wybrać model obsługujący analizę obrazów, przesłać obrazy i interaktywnie przetestować monity, aby zrozumieć, w jaki sposób model interpretuje informacje wizualne.
Możesz na przykład dołączyć plik obrazu i pobrać model wielomodalny (np. gpt-4.1 mini), aby go przeanalizować i opisać.
Po zweryfikowaniu te same możliwości można uzyskać programowo przy użyciu interfejsów API, co umożliwia przesyłanie obrazów wraz z monitami tekstowymi w kodzie aplikacji.
Korzystanie z interfejsu API usługi Azure OpenAI na potrzeby analizy obrazów
Aby utworzyć aplikację, musisz przejść ze środowiska testowego Foundry do kodu. W edytorze kodu możesz napisać kod aplikacji przy użyciu OpenAI Responses API w Foundry. Interfejs OpenAI Responses API jest przeznaczony dla aplikacji agentowych i obsługuje rodzime dane wejściowe wielomodalne (w tym obrazy).
Na wysokim poziomie:
- Pojedyncze żądanie może zawierać dane wejściowe tekstu i dane wejściowe obrazu razem
- Obrazy mogą być udostępniane jako adresy URL lub jako dane obrazu zakodowane w formacie base64
- Model przetwarza oba dane wejściowe jednocześnie w celu wygenerowania odpowiedzi
Koncepcyjnie struktura monitów wygląda następująco:
- Instrukcja tekstowa (na przykład Jakie obiekty są widoczne na tym obrazie?)
- Co najmniej jeden obraz wejściowy dołączony do tego samego żądania
Takie podejście umożliwia deweloperom tworzenie aplikacji, w których użytkownicy przekazują obrazy i zadają pytania dotyczące nich w czasie rzeczywistym.
Korzystanie z zestawu AZURE OpenAI Python SDK
Za pomocą zasobu Microsoft Foundry z interfejsem API OpenAI można przeprowadzić analizę obrazów, w tym wysyłanie obrazów w monitach i uzyskiwanie odpowiedzi tekstowych — przy użyciu Responses API z wdrożeniem modelu obsługującego obrazy.
Zestaw SDK języka Python można zainstalować w terminalu programu Visual Studio Code przy użyciu następujących narzędzi:
pip install openai
W edytorze kodu możemy utworzyć jeden plik języka Python, który zawiera kod aplikacji. Istotne jest, że potrzebujesz klucza zasobu Foundry, punktu końcowego oraz nazwy wdrożonego modelu.
Uwaga / Notatka
Podczas wdrażania modelu w Foundry, model ma nazwę podstawową lub oryginalną oraz nadaną przez ciebie oryginalną nazwę wdrożenia. Foundry gospodaruje wdrożonym modelem (na przykład modelami klasy GPT z funkcją wizji) i udostępnia punkt końcowy.
W przykładzie kodu tworzysz klienta, wskazujesz jego punkt końcowy i przekazujesz nazwę wdrożenia modelu (nazwę, którą nadałeś modelowi) jako .
import os
from openai import OpenAI
# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name" # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"
client = OpenAI(
api_key=os.getenv("FOUNDRY_KEY"),
base_url=os.getenv("ENDPOINT"),
)
image_url = ""
response = client.responses.create(
model=os.getenv("MODEL_NAME"), # your deployment name
input=[
{
"role": "user",
"content": [
{"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
{"type": "input_image", "image_url": image_url}
],
}
],
)
print(response.output_text)
Przykład aplikacji klienckiej
Możesz utworzyć aplikację niestandardową, która używa modelu z obsługą obrazów do analizowania obrazu przy użyciu zestawu SDK języka Python OpenAI. Załóżmy na przykład, że chcesz utworzyć aplikację, która może identyfikować zwierzęta sfotografowane w przeglądarce Safari. Możesz przesłać swoje zdjęcia i utworzyć plik Pythona w edytorze kodu.
Następnie możesz napisać kod aplikacji, który używa interfejsu API OpenAI do nawiązywania połączenia z punktem końcowym modelu w narzędziu Foundry.
Kod aplikacji musi załadować dane obrazu i uzyskać monit języka naturalnego od użytkownika. Aby przesłać dane wejściowe do modelu, należy utworzyć wieloczęściowy komunikat zawierający zarówno dane obrazu, jak i tekstu. Model może odpowiedzieć odpowiednimi danymi wyjściowymi na podstawie tekstu i obrazu w wierszu polecenia.
Następnie dowiesz się, jak używać modeli foundry i zestawu Azure OpenAI SDK do generowania obrazów.