Podsumowanie
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
W tym module zapoznaliśmy się z modelami obsługującymi wizje w firmie Microsoft Foundry i sposobami ich używania do analizowania obrazów oraz generowania oryginalnych obrazów i filmów wideo.
Moduł obejmował modele wielomodalne, które obsługują analizę obrazów. Omówiliśmy również modele generowania obrazów, takie jak modele w rodzinie GPT-Image, do tworzenia i edytowania obrazów z monitów przy użyciu narzędzi i interfejsów API usługi Foundry. Na koniec wprowadziliśmy generowanie wideo za pomocą modeli Sora, które umożliwiają tworzenie tekstu na wideo i obraz-wideo za pomocą interaktywnych środowisk zabaw i programistycznych, asynchronicznych przepływów pracy REST.
Ogólnie rzecz biorąc, wizualne modele sztucznej inteligencji w firmie Microsoft Foundry pomagają wypełnić lukę między danymi wizualnymi a sztuczną inteligencją opartą na języku. Umożliwiają one scenariusze, takie jak analiza dokumentów i obrazów, asystenci wizualni, narzędzia ułatwień dostępu oraz wielomodalni agenci sztucznej inteligencji — co sprawia, że zrozumienie obrazu staje się naturalnym rozszerzeniem nowoczesnych aplikacji sztucznej inteligencji.
Aby dowiedzieć się więcej, zapoznaj się z następującymi linkami:
- Wypróbuj szybki przewodnik dotyczący analizy obrazów z dokumentacji.
- Dowiedz się więcej o modelach czatów z obsługą przetwarzania obrazów.
- Dowiedz się więcej o modelach generowania obrazów usługi Azure OpenAI.
- Dowiedz się więcej na temat generowania wideo w usłudze Sora.