이미지 생성

2분

비고

자세한 내용은 텍스트 및 이미지 탭을 참조하세요.

AI가 시각적 입력에 대한 자연어 응답을 만들 수 있도록 하는 동일한 멀티모달 모델 아키텍처를 사용하여 자연어 프롬프트에 대한 응답으로 이미지를 만들 수도 있습니다. 이미지 합성 모델은 언어와 관련된 시각적 기능을 식별하여 원하는 이미지 또는 비디오에 대한 설명을 가져와 생성할 수 있습니다.

대부분의 최신 이미지 생성 모델은 확산이라는 기술을 사용하며, 프롬프트를 사용하여 이미지를 만들기 위해 결합할 수 있는 관련 시각적 기능 집합을 식별합니다. 그런 다음 임의 픽셀 값 집합으로 시작하고 구조를 만들기 위해 "노이즈"를 제거하여 이미지를 반복적으로 만듭니다. 각 반복 후에 모델은 원하는 장면을 보여 주는 최종 이미지가 생성될 때까지 지금까지 이미지를 평가하여 프롬프트와 비교합니다.

예를 들어 "입에 막대기를 들고 있는 개" 라는 프롬프트는 다음과 같은 반복으로 확산 과정을 초래할 수 있습니다.

시각적 구조가 증가하는 일련의 개 이미지 다이어그램.

일부 모델은 비디오 생성과 유사한 프로세스를 적용할 수 있습니다. 비디오 생성 프로세스는 동일한 기술을 사용하여 언어 토큰과 연결된 시각적 기능을 식별하지만 실제 세계에서 개체의 물리적 동작(예: 개가 발을 지면에서 걷는지 확인) 및 임시 진행(비디오가 논리적 동작 시퀀스를 표시하도록)과 같은 요소를 고려합니다.

피드백

이 페이지가 도움이 되었나요?