GPT-4 Turbo with Vision 개념

GPT-4 Turbo with Vision은 이미지를 분석하고 이미지에 대한 질문에 대한 텍스트 응답을 제공할 수 있는 OpenAI에서 개발한 LMM(대형 다중 모드 모델)입니다. 이는 자연어 처리와 시각적 이해를 모두 통합합니다. 이 가이드에서는 GPT-4 Turbo with Vision의 기능 및 제한 사항에 대한 세부 정보를 제공합니다.

GPT-4 Turbo with Vision을 사용해 보려면 빠른 시작을 참조하세요.

비전을 사용하는 채팅

GPT-4 Turbo with Vision 모델은 업로드한 이미지 또는 동영상에 무엇이 있는지에 대한 일반적인 질문에 답합니다.

향상된 기능

향상된 기능을 통해 다른 Azure AI 서비스(예: Azure AI Vision)를 통합하여 비전을 사용하는 채팅 환경에 새로운 기능을 추가할 수 있습니다.

개체 정보 제공: Azure AI Vision은 입력 이미지에서 핵심 개체를 식별하고 찾아서 GPT-4 Turbo with Vision의 텍스트 응답을 보완합니다. 이를 통해 채팅 모델은 이미지 내용에 대한 보다 정확하고 자세한 응답을 제공할 수 있습니다.

Important

Vision 향상 기능을 사용하려면 Computer Vision 리소스가 필요합니다. 유료(S1) 계층이어야 하며 GPT-4 Turbo with Vision 리소스와 동일한 Azure 지역에 있어야 합니다.

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

OCR(광학 인식): Azure AI Vision은 고품질 OCR 결과를 채팅 모델에 추가 정보로 제공하여 GPT-4 Turbo with Vision을 보완합니다. 이를 통해 모델은 밀도가 높은 텍스트, 변환된 이미지 및 숫자가 많은 재무 문서에 대해 더 높은 품질의 응답을 생성하고 모델이 텍스트에서 인식할 수 있는 언어의 다양성을 높일 수 있습니다.

Important

Vision 향상 기능을 사용하려면 Computer Vision 리소스가 필요합니다. 유료(S1) 계층이어야 하며 GPT-4 Turbo with Vision 리소스와 동일한 Azure 지역에 있어야 합니다.

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

비디오 프롬프트: 향상된 비디오 프롬프트를 통해 비디오 클립을 AI 채팅에 대한 입력으로 사용할 수 있으므로 모델이 비디오 콘텐츠에 대한 요약 및 답변을 생성할 수 있습니다. 이 기능은 Azure AI 비전 동영상 검색을 사용하여 동영상에서 프레임 집합을 샘플링하고 동영상에서 음성 스크립트를 만듭니다.

참고 항목

비디오 프롬프트 향상을 사용하려면 Azure OpenAI 리소스 외에도 유료(S1) 계층에서 Azure AI Vision 리소스가 모두 필요합니다.

특별 가격 책정 정보

Important

가격 책정 세부 정보는 나중에 변경될 수 있습니다.

GPT-4 Turbo with Vision은 다른 Azure OpenAI 채팅 모델과 같은 요금이 발생합니다. 가격 책정 페이지에 자세히 설명된 프롬프트 및 완료에 대해 토큰당 요금을 지불합니다. 기본 요금 및 추가 기능은 다음과 같습니다.

GPT-4 Turbo with Vision의 기본 가격은 다음과 같습니다.

  • 입력: 토큰 1000개당 $0.01
  • 출력: 토큰 1000개당 $0.03

텍스트 및 이미지가 토큰으로 변환되는 방법에 대한 내용은 개요의 토큰 섹션을 참조하세요.

향상된 기능을 켜면 Azure AI Vision 기능에서 GPT-4 Turbo with Vision을 사용하는 경우 추가 사용량이 적용됩니다.

모델 가격
+ OCR을 위한 향상된 추가 기능 트랜잭션 1,000개당 $1.5
+ 개체 검색을 위한 향상된 추가 기능 트랜잭션 1,000개당 $1.5
+ "이미지 추가" 이미지 포함에 대한 향상된 추가 기능 트랜잭션 1,000개당 $1.5
+ "비디오 검색" 통합을 위한 향상된 추가 기능 1 수집: 동영상 분당 $0.05
트랜잭션: 동영상 쿼리 인덱스의 쿼리 1000개당 $0.25

1 비디오 처리에는 추가 토큰을 사용해서 분석용 키 프레임을 식별하는 작업이 포함됩니다. 이러한 추가 토큰의 수는 텍스트 입력에 있는 토큰에 700개 토큰을 더한 값과 거의 동일합니다.

이미지 가격 계산 예제

Important

다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.

일반적인 사용 사례의 경우 표시되는 개체와 텍스트, 100개 토큰 프롬프트 입력이 모두 있는 이미지를 사용합니다. 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이미지에서 텍스트와 개체를 모두 검색할 수 있습니다. 이 트랜잭션의 가격은 다음과 같습니다.

Item 세부 정보 총 비용
GPT-4 Turbo with Vision 입력 토큰 100개 텍스트 토큰 $0.001
OCR에 대한 향상된 추가 기능 1000개 트랜잭션당 $1.50 $0.0015
개체 정보 제공에 대한 향상된 추가 기능 1000개 트랜잭션당 $1.50 $0.0015
출력 토큰 토큰 100개(가정) $0.003
총 비용 $0.007

비디오 가격 계산 예제

Important

다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.

일반적인 사용 사례의 경우 100개 토큰 프롬프트 입력이 포함된 3분 분량의 비디오를 시청하세요. 비디오에는 100개의 토큰 길이의 긴 대본이 있으며 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이 트랜잭션의 가격은 다음과 같습니다.

Item 세부 정보 총 비용
GPT-4 Turbo with Vision 입력 토큰 100개 텍스트 토큰 $0.001
프레임을 식별하는 추가 비용 입력 토큰 100개 + 토큰 700개 + 비디오 검색 트랜잭션 1개 $0.00825
이미지 입력 및 대본 입력 이미지 20개(각각 토큰 85개) + 대본 토큰 100개 $0.018
출력 토큰 토큰 100개(가정) $0.003
총 비용 $0.03025

또한 이 3분 분량의 비디오에 대한 비디오 검색 인덱스를 생성하는 경우 1회 인덱싱 비용이 $0.15입니다. 이 인덱스는 횟수 제한 없는 비디오 검색 및 GPT-4 Turbo with Vision API 호출에서 재사용할 수 있습니다.

제한 사항

이 섹션에서는 GPT-4 Turbo with Vision의 제한 사항에 대해 설명합니다.

이미지 지원

  • 채팅 세션당 이미지 향상에 대한 제한 사항: 향상된 기능은 단일 채팅 통화 내의 여러 이미지에 적용할 수 없습니다.
  • 최대 입력 이미지 크기: 입력 이미지의 최대 크기는 20MB로 제한됩니다.
  • 향상된 API의 개체 정보 제공: 향상된 API가 개체 정보 제공에 사용되고 모델이 개체의 중복을 검색하면, 각각에 대해 별도의 항목이 아닌 모든 중복 항목에 대해 하나의 경계 상자와 레이블이 생성됩니다.
  • 낮은 해상도 정확도: "낮은 해상도" 설정을 사용하여 이미지를 분석하면 응답 속도가 빨라지고 특정 사용 사례에 더 적은 입력 토큰이 사용됩니다. 그러나 이것은 이미지 내의 개체 및 텍스트 인식의 정확도에 영향을 미칠 수 있습니다.
  • 이미지 채팅 제한: Azure OpenAI Studio 또는 API에서 이미지를 업로드하는 경우 채팅 호출당 10개의 이미지로 제한됩니다.

비디오 지원

  • 낮은 해상도: 비디오 프레임은 비디오의 작은 개체 및 텍스트 인식의 정확도에 영향을 줄 수 있는 GPT-4 Turbo with Vision의 "낮은 해상도" 설정을 사용하여 분석됩니다.
  • 비디오 파일 제한: MP4 및 MOV 파일 형식이 모두 지원됩니다. Azure OpenAI Studio에서 비디오의 길이는 3분 미만이어야 합니다. API를 사용하는 경우 이러한 제한이 없습니다.
  • 프롬프트 제한: 비디오 프롬프트에는 하나의 비디오만 포함되고 이미지는 포함되지 않습니다. Azure OpenAI Studio에서 세션을 지우고 다른 비디오 또는 이미지를 사용해 볼 수 있습니다.
  • 제한된 프레임 선택: 서비스는 전체 비디오에서 20개의 프레임을 선택하며, 모든 중요한 순간이나 세부 정보를 캡처하지는 않을 수도 있습니다. 프레임 선택 영역은 프롬프트에 따라 비디오에서 거의 균등하게 분산되거나 특정 비디오 검색 쿼리 시 초점 대상이 될 수 있습니다.
  • 언어 지원: 이 서비스는 주로 대본에 영어로 정보를 제공하도록 지원합니다. 대본은 노래의 가사에 대한 정확한 정보를 제공하지 않습니다.

다음 단계