GPT-4 Turbo with Vision 개념
GPT-4 Turbo with Vision은 이미지를 분석하고 이미지에 대한 질문에 대한 텍스트 응답을 제공할 수 있는 OpenAI에서 개발한 LMM(대형 다중 모드 모델)입니다. 이는 자연어 처리와 시각적 이해를 모두 통합합니다. 이 가이드에서는 GPT-4 Turbo with Vision의 기능 및 제한 사항에 대한 세부 정보를 제공합니다.
GPT-4 Turbo with Vision을 사용해 보려면 빠른 시작을 참조하세요.
비전을 사용하는 채팅
GPT-4 Turbo with Vision 모델은 업로드한 이미지 또는 동영상에 무엇이 있는지에 대한 일반적인 질문에 답합니다.
특별 가격 책정 정보
Important
가격 책정 세부 정보는 나중에 변경될 수 있습니다.
GPT-4 Turbo with Vision은 다른 Azure OpenAI 채팅 모델과 같은 요금이 발생합니다. 가격 책정 페이지에 자세히 설명된 프롬프트 및 완료에 대해 토큰당 요금을 지불합니다. 기본 요금 및 추가 기능은 다음과 같습니다.
GPT-4 Turbo with Vision의 기본 가격은 다음과 같습니다.
- 입력: 토큰 1000개당 $0.01
- 출력: 토큰 1000개당 $0.03
텍스트 및 이미지가 토큰으로 변환되는 방법에 대한 내용은 개요의 토큰 섹션을 참조하세요.
이미지 가격 계산 예제
Important
다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.
일반적인 사용 사례의 경우 표시되는 개체와 텍스트, 100개 토큰 프롬프트 입력이 모두 있는 이미지를 사용합니다. 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이미지에서 텍스트와 개체를 모두 검색할 수 있습니다. 이 트랜잭션의 가격은 다음과 같습니다.
Item | 세부 정보 | 비용 |
---|---|---|
텍스트 프롬프트 입력 | 100개 텍스트 토큰 | $0.001 |
이미지 입력 예제(이미지 토큰 참조) | 이미지 토큰 170개 + 85개 | $0.00255 |
OCR에 대한 향상된 추가 기능 | 1000개 트랜잭션당 $1.50 | $0.0015 |
개체 정보 제공에 대한 향상된 추가 기능 | 1000개 트랜잭션당 $1.50 | $0.0015 |
출력 토큰 | 토큰 100개(가정) | $0.003 |
합계 | $0.00955 |
비디오 가격 계산 예제
Important
다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.
일반적인 사용 사례의 경우 100개 토큰 프롬프트 입력이 포함된 3분 분량의 비디오를 시청하세요. 비디오에는 100개의 토큰 길이의 긴 대본이 있으며 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이 트랜잭션의 가격은 다음과 같습니다.
Item | 세부 정보 | 비용 |
---|---|---|
GPT-4 Turbo with Vision 입력 토큰 | 100개 텍스트 토큰 | $0.001 |
프레임을 식별하는 추가 비용 | 입력 토큰 100개 + 토큰 700개 + 비디오 검색 트랜잭션 1개 | $0.00825 |
이미지 입력 및 대본 입력 | 이미지 20개(각각 토큰 85개) + 대본 토큰 100개 | $0.018 |
출력 토큰 | 토큰 100개(가정) | $0.003 |
합계 | $0.03025 |
또한 이 3분 분량의 비디오에 대한 비디오 검색 인덱스를 생성하는 경우 1회 인덱싱 비용이 $0.15입니다. 이 인덱스는 횟수 제한 없는 비디오 검색 및 GPT-4 Turbo with Vision API 호출에서 재사용할 수 있습니다.
입력 제한 사항
이 섹션에서는 GPT-4 Turbo with Vision의 제한 사항에 대해 설명합니다.
이미지 지원
- 최대 입력 이미지 크기: 입력 이미지의 최대 크기는 20MB로 제한됩니다.
- 낮은 해상도 정확도: "낮은 해상도" 설정을 사용하여 이미지를 분석하면 응답 속도가 빨라지고 특정 사용 사례에 더 적은 입력 토큰이 사용됩니다. 그러나 이것은 이미지 내의 개체 및 텍스트 인식의 정확도에 영향을 미칠 수 있습니다.
- 이미지 채팅 제한: Azure AI Studio 또는 API에서 이미지를 업로드하는 경우 채팅 호출당 10개의 이미지로 제한됩니다.
비디오 지원
- 낮은 해상도: 비디오 프레임은 비디오의 작은 개체 및 텍스트 인식의 정확도에 영향을 줄 수 있는 GPT-4 Turbo with Vision의 "낮은 해상도" 설정을 사용하여 분석됩니다.
- 비디오 파일 제한: MP4 및 MOV 파일 형식이 모두 지원됩니다. Azure AI Studio에서 비디오의 길이는 3분 미만이어야 합니다. API를 사용하는 경우 이러한 제한이 없습니다.
- 프롬프트 제한: 비디오 프롬프트에는 하나의 비디오만 포함되고 이미지는 포함되지 않습니다. Azure AI Studio에서 세션을 지우고 다른 비디오 또는 이미지를 사용해 볼 수 있습니다.
- 제한된 프레임 선택: 서비스는 전체 비디오에서 20개의 프레임을 선택하며, 모든 중요한 순간이나 세부 정보를 캡처하지는 않을 수도 있습니다. 프레임 선택 영역은 프롬프트에 따라 비디오에서 거의 균등하게 분산되거나 특정 비디오 검색 쿼리 시 초점 대상이 될 수 있습니다.
- 언어 지원: 이 서비스는 주로 대본에 영어로 정보를 제공하도록 지원합니다. 대본은 노래의 가사에 대한 정확한 정보를 제공하지 않습니다.
다음 단계
- 빠른 시작에 따라 GPT-4 Turbo with Vision 사용을 시작합니다.
- API를 좀 더 자세히 살펴보고 채팅에서 비디오 프롬프트를 사용하려면 방법 가이드를 따르세요.
- 완료 및 포함 API 참조를 참조하세요.