Zusammenfassung

Abgeschlossen

Hinweis

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

In diesem Modul haben wir visionsfähige Modelle in Microsoft Foundry untersucht und wie sie zum Analysieren von Bildern und zum Generieren von Originalbildern und Videos verwendet werden.

Das Modul deckte multimodale Modelle ab, die die Bildanalyse unterstützen. Wir behandelten auch Modelle der Bildgenerierung, z. B. in der GPT-Image Familie, zum Erstellen und Bearbeiten von Bildern aus Eingabeaufforderungen mithilfe von Foundry-Tools und APIs. Schließlich haben wir die Videogenerierung mit Sora-Modellen eingeführt, die die Text-zu-Video- und Bild-zu-Video-Erstellung sowohl über interaktive Spielplätze als auch über programmgesteuerte, asynchrone REST-Workflows ermöglichen.

Insgesamt tragen visuelle KI-Modelle in Microsoft Foundry dazu bei, den Abstand zwischen visuellen Daten und sprachbasierter KI zu überbrücken. Sie ermöglichen Szenarien wie Dokument- und Bildanalyse, visuelle Assistenten, Barrierefreiheitstools und multimodale KI-Agents– was das Verständnis von Bildern zu einer natürlichen Erweiterung moderner KI-Anwendungen macht.

Weitere Informationen finden Sie unter folgenden Links: