映射產生
備註
有關更多詳細信息,請參閱 文本和圖像 選項卡!
使人工智慧能夠對視覺輸入創建自然語言回應的相同多模態模型架構也可用於使其能夠根據自然語言提示創建圖像。 透過識別與語言相關的視覺特徵,影像合成模型可以對所需影像或影片進行描述並產生它。
大多數現代圖像生成模型都使用一種稱為 擴散的技術,其中提示用於識別一組相關的視覺特徵,這些特徵可以組合起來創建圖像。 然後迭代創建圖像,從一組隨機像素值開始,並去除“噪聲”以創建結構。 每次迭代之後,模型都會評估到目前為止的影像,以將其與提示進行比較,直到產生描述所需場景的最終影像。
例如,提示 「一隻狗嘴裡叼著一根棍子」 可能會導致具有以下迭代的擴散過程:
某些模型可以應用類似的過程來生成視頻。 視訊產生程式會使用相同的技術來識別與語言權杖相關聯的視覺特徵,但也會考慮現實世界中物件的實體行為 (例如確保狗腳著地行走) 和時間進展 (以便視訊描述活動的邏輯順序) 等因素。