Podsumowanie

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

W tym module zapoznaliśmy się z modelami obsługującymi wizje w firmie Microsoft Foundry i sposobami ich używania do analizowania obrazów oraz generowania oryginalnych obrazów i filmów wideo.

Moduł obejmował modele wielomodalne, które obsługują analizę obrazów. Omówiliśmy również modele generowania obrazów, takie jak modele w rodzinie GPT-Image, do tworzenia i edytowania obrazów z monitów przy użyciu narzędzi i interfejsów API usługi Foundry. Na koniec wprowadziliśmy generowanie wideo za pomocą modeli Sora, które umożliwiają tworzenie tekstu na wideo i obraz-wideo za pomocą interaktywnych środowisk zabaw i programistycznych, asynchronicznych przepływów pracy REST.

Ogólnie rzecz biorąc, wizualne modele sztucznej inteligencji w firmie Microsoft Foundry pomagają wypełnić lukę między danymi wizualnymi a sztuczną inteligencją opartą na języku. Umożliwiają one scenariusze, takie jak analiza dokumentów i obrazów, asystenci wizualni, narzędzia ułatwień dostępu oraz wielomodalni agenci sztucznej inteligencji — co sprawia, że zrozumienie obrazu staje się naturalnym rozszerzeniem nowoczesnych aplikacji sztucznej inteligencji.

Aby dowiedzieć się więcej, zapoznaj się z następującymi linkami: