概要
注
詳細については、「 テキストと画像 」タブを参照してください。
このモジュールでは、Microsoft Foundry のビジョン対応モデルと、それらを使用して画像を分析し、元の画像とビデオを生成する方法について説明しました。
このモジュールでは、画像分析をサポートするマルチモーダル モデルについて説明しました。 また、Foundry ツールと API を使用してプロンプトからイメージを作成および編集するための、GPT-Image ファミリのイメージ生成モデルについても説明しました。 最後に、対話型のプレイグラウンドとプログラムによる非同期 REST ワークフローの両方を通じてテキストからビデオ、画像からビデオへの作成を可能にする、Ora モデルを使用したビデオ生成を導入しました。
全体として、Microsoft Foundry のビジュアル AI モデルは、ビジュアル データと言語ベースの AI のギャップを埋めるのに役立ちます。 これにより、ドキュメントと画像の分析、ビジュアル アシスタント、アクセシビリティ ツール、マルチモーダル AI エージェントなどのシナリオが可能になり、画像を最新の AI アプリケーションの自然な拡張機能として理解できるようになります。
詳細については、次のリンクを参照してください。
- ドキュメントから画像分析のクイック スタートをお試しください。
- 視覚対応チャット モデルの詳細を確認します。
- Azure OpenAI イメージ生成モデルの詳細について説明します。
- ソラを使用したビデオ生成の詳細をご覧ください。