การสร้างรูปภาพ

เสร็จสมบูรณ์เมื่อ

Note

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

สถาปัตยกรรมโมเดลหลายรูปแบบเดียวกันที่ช่วยให้ AI สร้างการตอบสนองภาษาธรรมชาติต่อการป้อนข้อมูลด้วยภาพ ยังสามารถใช้เพื่อเปิดใช้งานการสร้างภาพเพื่อตอบสนองต่อข้อความแจ้งภาษาธรรมชาติ ด้วยการระบุคุณลักษณะภาพที่เกี่ยวข้องกับภาษา โมเดลการสังเคราะห์ภาพสามารถนําคําอธิบายของรูปภาพหรือวิดีโอที่ต้องการมาสร้างได้

โมเดลการสร้างรูปภาพที่ทันสมัยส่วนใหญ่ใช้เทคนิคที่เรียกว่าการ แพร่กระจาย ซึ่งข้อความแจ้งจะใช้เพื่อระบุชุดของคุณลักษณะภาพที่เกี่ยวข้องซึ่งสามารถรวมกันเพื่อสร้างรูปภาพได้ จากนั้นรูปภาพจะถูกสร้างขึ้นซ้ําๆ โดยเริ่มจากชุดค่าพิกเซลแบบสุ่มและลบ "สัญญาณรบกวน" เพื่อสร้างโครงสร้าง หลังจากการทําซ้ําแต่ละครั้ง โมเดลจะประเมินภาพจนถึงตอนนี้เพื่อเปรียบเทียบกับพรอมต์ จนกว่าจะได้ภาพสุดท้ายที่แสดงฉากที่ต้องการ

ตัวอย่างเช่น ข้อความแจ้ง "สุนัขถือไม้ในปาก" อาจส่งผลให้เกิดกระบวนการแพร่กระจายด้วยการทําซ้ําต่อไปนี้:

แผนภาพชุดภาพของสุนัขที่มีโครงสร้างภาพที่เพิ่มขึ้น

บางรุ่นสามารถใช้กระบวนการที่คล้ายกันในการสร้างวิดีโอได้ กระบวนการสร้างวิดีโอใช้เทคนิคเดียวกันในการระบุคุณลักษณะภาพที่เกี่ยวข้องกับโทเค็นภาษา แต่ยังคํานึงถึงปัจจัยต่างๆ เช่น พฤติกรรมทางกายภาพของวัตถุในโลกแห่งความเป็นจริง (เช่น การทําให้แน่ใจว่าสุนัขเดินด้วยเท้าบนพื้น) และความก้าวหน้าทางชั่วคราว (เพื่อให้วิดีโอแสดงลําดับกิจกรรมเชิงตรรกะ)