イメージの生成
注
詳細については、「 テキストと画像 」タブを参照してください。
AI が視覚入力に対する自然言語応答を作成できるようにするのと同じマルチモーダル モデル アーキテクチャを使用して、自然言語プロンプトに応答して画像を作成することもできます。 画像合成モデルでは、言語に関連付けられている視覚的特徴を特定することで、目的の画像またはビデオの説明を取得して生成できます。
最新の画像生成モデルの多くは 拡散と呼ばれる手法を使用します。この手法では、画像を作成するために組み合わせることができる関連する一連の視覚的特徴を識別するためにプロンプトが使用されます。 その後、ランダムなピクセル値のセットから始まり、構造を作成するための "ノイズ" を削除して、画像が繰り返し作成されます。 各反復の後、モデルは、目的のシーンを示す最終的な画像が生成されるまで、これまでの画像を評価してプロンプトと比較します。
たとえば、"スティックを 口に入れている犬" というプロンプトは、次のイテレーションで拡散プロセスを行う可能性があります。
一部のモデルでは、ビデオの生成と同様のプロセスを適用できます。 ビデオ生成プロセスでは、同じ手法を使用して、言語トークンに関連付けられている視覚的特徴を特定しますが、現実世界のオブジェクトの物理的な動作 (犬が地面に足を踏み入れて歩くなど) や一時的な進行 (ビデオがアクティビティの論理的なシーケンスを示すように) などの要因も考慮します。