Modele wielomodalne do analizy obrazów

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Coraz częściej nowe modele sztucznej inteligencji są wielomodalne. Innymi słowy, obsługują one wiele rodzajów danych wejściowych, w tym obrazy i tekst. Modele wielomodalne to modele sztucznej inteligencji, które mogą zrozumieć i pracować z więcej niż jednym typem danych w tym samym czasie, takimi jak tekst, obrazy, dźwięk lub wideo. Na przykład model wielomodalny może opisywać obraz w języku naturalnym lub odpowiedzieć na pytanie dotyczące zdjęcia.

Modele wielomodalne są często używane w ramach:

  • Aplikacje sztucznej inteligencji, w których zrozumienie obrazu zwiększa przepływy pracy użytkowników
  • Agenci sztucznej inteligencji, gdzie dane wejściowe wizualne pomagają agentowi podejmować lepsze decyzje

Oto kilka przykładów:

  • Agent, który przegląda przekazane dokumenty i zrzuty ekranu
  • Aplikacja pomocy technicznej, która analizuje zdjęcia przesłane przez klientów
  • Narzędzie szkoleniowe, które wyjaśnia diagramy lub wykresy w języku prostym

Ponieważ modele wielomodalne akceptują zarówno tekst, jak i obrazy, zmniejszają potrzebę oddzielnych ścieżek przetwarzania obrazów i ułatwiają tworzenie kompleksowych inteligentnych doświadczeń.

Możliwość łączenia rozumienia wizualnego z odpowiedziami języka naturalnego jest określana jako modele GPT z wbudowaną obsługą wizji lub GPT z funkcją wizji. Modele z obsługą wizji są zaprojektowane z myślą o elastycznym, wizualnym rozumowaniu ogólnego przeznaczenia. Mogą analizować dane wejściowe wizualne i reagować w języku naturalnym, co ułatwia tworzenie inteligentnych aplikacji bez konieczności posiadania głębokiej wiedzy z zakresu przetwarzania obrazów.

Modele wielomodalne w rozwiązaniu Microsoft Foundry

Firma Microsoft Foundry zawiera wiele modeli, które akceptują dane wejściowe oparte na obrazach, umożliwiając tworzenie inteligentnych rozwiązań opartych na obrazach. Modele wielomodalne w rozwiązaniu Microsoft Foundry umożliwiają aplikacjom i agentom zrozumienie, analizowanie i rozumowanie obrazów i zawartości wizualnej.

Na przykład modele GPT z obsługą przetwarzania obrazów w narzędziu Foundry mogą:

  • Opisywanie zawartości obrazu w języku naturalnym
  • Odpowiadanie na pytania dotyczące obiektów, tekstu lub scen na obrazie
  • Wyodrębnianie znaczenia z wykresów, zrzutów ekranu, dokumentów lub zdjęć
  • Łącz zrozumienie obrazu z instrukcjami tekstowymi w jednym poleceniu.

Wykaz modeli Foundry zawiera wiele modeli wielomodalnych, w tym:

  • GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Te wielomodalne modele GPT ogólnego przeznaczenia mogą przetwarzać tekst i obrazy razem. Są one często używane do opisu obrazu i wizualnego odpowiadania na pytania, analizy dokumentów i zrzutów ekranu oraz interpretacji wykresu i diagramu.

  • Seria GPT-5 (na przykład GPT-5.1, GPT-5.2): Rodzina GPT-5 dostępna w rozwiązaniu Foundry obejmuje zaawansowane modele wielomodalne przeznaczone dla przedsiębiorstw i scenariuszy agentycznych. Modele te obsługują wielomodalne dane wejściowe (w tym tekst i obrazy), dane wyjściowe ze strukturą i użycie narzędzi, rozumowanie w dużych kontekstach między modalnościami. Modele serii GPT-5 są zwykle używane w agentach sztucznej inteligencji klasy produkcyjnej i złożonych aplikacjach wielomodalnych.

Foundry hostuje również modele wielomodalne udostępniane przez partnerów w katalogu modeli, w tym modele od dostawców, takich jak Anthropic i inne, które obsługują interpretację tekstu i obrazu.

Analiza obrazu na placu zabaw z narzędziem Foundry

Uwaga / Notatka

Portal Foundry ma klasyczny interfejs użytkownika i nowy interfejs użytkownika.

W nowym portalu Microsoft Foundry możesz użyć placu zabaw dla modelu, aby porozmawiać z wdrożonym modelem. Możesz wybrać model obsługujący analizę obrazów, przesłać obrazy i interaktywnie przetestować monity, aby zrozumieć, w jaki sposób model interpretuje informacje wizualne.

Zrzut ekranu przedstawiający narzędzie Foundry Playground z wdrożonym mini modelem gpt-4.1 i użytkownikiem przekazującym obraz zwierzęcia.

Możesz na przykład dołączyć plik obrazu i pobrać model wielomodalny (np. gpt-4.1 mini), aby go przeanalizować i opisać.

Zrzut ekranu z Foundry Playground z poleceniem, które prosi model o opisanie, co znajduje się na obrazie, oraz z odpowiedzią zawierającą opis.

Po zweryfikowaniu te same możliwości można uzyskać programowo przy użyciu interfejsów API, co umożliwia przesyłanie obrazów wraz z monitami tekstowymi w kodzie aplikacji.

Korzystanie z interfejsu API usługi Azure OpenAI na potrzeby analizy obrazów

Aby utworzyć aplikację, musisz przejść ze środowiska testowego Foundry do kodu. W edytorze kodu możesz napisać kod aplikacji przy użyciu OpenAI Responses API w Foundry. Interfejs OpenAI Responses API jest przeznaczony dla aplikacji agentowych i obsługuje rodzime dane wejściowe wielomodalne (w tym obrazy).

Na wysokim poziomie:

  • Pojedyncze żądanie może zawierać dane wejściowe tekstu i dane wejściowe obrazu razem
  • Obrazy mogą być udostępniane jako adresy URL lub jako dane obrazu zakodowane w formacie base64
  • Model przetwarza oba dane wejściowe jednocześnie w celu wygenerowania odpowiedzi

Koncepcyjnie struktura monitów wygląda następująco:

  • Instrukcja tekstowa (na przykład Jakie obiekty są widoczne na tym obrazie?)
  • Co najmniej jeden obraz wejściowy dołączony do tego samego żądania

Takie podejście umożliwia deweloperom tworzenie aplikacji, w których użytkownicy przekazują obrazy i zadają pytania dotyczące nich w czasie rzeczywistym.

Korzystanie z zestawu AZURE OpenAI Python SDK

Za pomocą zasobu Microsoft Foundry z interfejsem API OpenAI można przeprowadzić analizę obrazów, w tym wysyłanie obrazów w monitach i uzyskiwanie odpowiedzi tekstowych — przy użyciu Responses API z wdrożeniem modelu obsługującego obrazy.

Zestaw SDK języka Python można zainstalować w terminalu programu Visual Studio Code przy użyciu następujących narzędzi:

pip install openai

W edytorze kodu możemy utworzyć jeden plik języka Python, który zawiera kod aplikacji. Istotne jest, że potrzebujesz klucza zasobu Foundry, punktu końcowego oraz nazwy wdrożonego modelu.

Uwaga / Notatka

Podczas wdrażania modelu w Foundry, model ma nazwę podstawową lub oryginalną oraz nadaną przez ciebie oryginalną nazwę wdrożenia. Foundry gospodaruje wdrożonym modelem (na przykład modelami klasy GPT z funkcją wizji) i udostępnia punkt końcowy.

W przykładzie kodu tworzysz klienta, wskazujesz jego punkt końcowy i przekazujesz nazwę wdrożenia modelu (nazwę, którą nadałeś modelowi) jako .

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Przykład aplikacji klienckiej

Możesz utworzyć aplikację niestandardową, która używa modelu z obsługą obrazów do analizowania obrazu przy użyciu zestawu SDK języka Python OpenAI. Załóżmy na przykład, że chcesz utworzyć aplikację, która może identyfikować zwierzęta sfotografowane w przeglądarce Safari. Możesz przesłać swoje zdjęcia i utworzyć plik Pythona w edytorze kodu.

Zrzut ekranu przedstawiający obraz używany do analizy obrazów.

Następnie możesz napisać kod aplikacji, który używa interfejsu API OpenAI do nawiązywania połączenia z punktem końcowym modelu w narzędziu Foundry.

Zrzut ekranu programu Visual Studio Code z plikiem python zawierającym kod aplikacji na potrzeby analizy obrazów.

Kod aplikacji musi załadować dane obrazu i uzyskać monit języka naturalnego od użytkownika. Aby przesłać dane wejściowe do modelu, należy utworzyć wieloczęściowy komunikat zawierający zarówno dane obrazu, jak i tekstu. Model może odpowiedzieć odpowiednimi danymi wyjściowymi na podstawie tekstu i obrazu w wierszu polecenia.

Zrzut ekranu programu Visual Studio Code z wynikiem analizy obrazu.

Następnie dowiesz się, jak używać modeli foundry i zestawu Azure OpenAI SDK do generowania obrazów.