다음을 통해 공유


GPT-4 Turbo with Vision 개념

GPT-4 Turbo with Vision은 이미지를 분석하고 이미지에 대한 질문에 대한 텍스트 응답을 제공할 수 있는 OpenAI에서 개발한 LMM(대형 다중 모드 모델)입니다. 이는 자연어 처리와 시각적 이해를 모두 통합합니다. 이 가이드에서는 GPT-4 Turbo with Vision의 기능 및 제한 사항에 대한 세부 정보를 제공합니다.

GPT-4 Turbo with Vision을 사용해 보려면 빠른 시작을 참조하세요.

비전을 사용하는 채팅

GPT-4 Turbo with Vision 모델은 업로드한 이미지 또는 동영상에 무엇이 있는지에 대한 일반적인 질문에 답합니다.

향상된 기능

향상된 기능을 통해 다른 Azure AI 서비스(예: Azure AI Vision)를 통합하여 비전을 사용하는 채팅 환경에 새로운 기능을 추가할 수 있습니다.

Important

Vision 향상 기능을 사용하려면 Computer Vision 리소스가 필요합니다. 유료(S1) 계층이어야 하며 GPT-4 Turbo with Vision 리소스와 동일한 Azure 지역에 있어야 합니다.

Important

GPT-4 Turbo GA 모델에서는 비전 향상이 지원되지 않습니다. 미리 보기 모델에서만 사용할 수 있습니다.

개체 정보 제공: Azure AI Vision은 입력 이미지에서 핵심 개체를 식별하고 찾아서 GPT-4 Turbo with Vision의 텍스트 응답을 보완합니다. 이를 통해 채팅 모델은 이미지 내용에 대한 보다 정확하고 자세한 응답을 제공할 수 있습니다.

개체 접지가 적용된 이미지의 스크린샷. 개체에는 레이블이 있는 경계 상자가 있습니다.

의상에 대한 이미지 프롬프트에 대한 채팅 응답 스크린샷. 응답은 이미지에 표시된 의류 항목의 항목별 목록입니다.

OCR(광학 인식): Azure AI Vision은 고품질 OCR 결과를 채팅 모델에 추가 정보로 제공하여 GPT-4 Turbo with Vision을 보완합니다. 이를 통해 모델은 밀도가 높은 텍스트, 변환된 이미지 및 숫자가 많은 재무 문서에 대해 더 높은 품질의 응답을 생성하고 모델이 텍스트에서 인식할 수 있는 언어의 다양성을 높일 수 있습니다.

여러 영수증의 사진.

OCR 호출의 JSON 응답 스크린샷.

비디오 프롬프트: 향상된 비디오 프롬프트를 통해 비디오 클립을 AI 채팅에 대한 입력으로 사용할 수 있으므로 모델이 비디오 콘텐츠에 대한 요약 및 답변을 생성할 수 있습니다. 이 기능은 Azure AI 비전 동영상 검색을 사용하여 동영상에서 프레임 집합을 샘플링하고 동영상에서 음성 스크립트를 만듭니다.

특별 가격 책정 정보

Important

가격 책정 세부 정보는 나중에 변경될 수 있습니다.

GPT-4 Turbo with Vision은 다른 Azure OpenAI 채팅 모델과 같은 요금이 발생합니다. 가격 책정 페이지에 자세히 설명된 프롬프트 및 완료에 대해 토큰당 요금을 지불합니다. 기본 요금 및 추가 기능은 다음과 같습니다.

GPT-4 Turbo with Vision의 기본 가격은 다음과 같습니다.

  • 입력: 토큰 1000개당 $0.01
  • 출력: 토큰 1000개당 $0.03

텍스트 및 이미지가 토큰으로 변환되는 방법에 대한 내용은 개요의 토큰 섹션을 참조하세요.

향상된 기능을 켜면 Azure AI Vision 기능에서 GPT-4 Turbo with Vision을 사용하는 경우 추가 사용량이 적용됩니다.

모델 가격
+ OCR을 위한 향상된 추가 기능 트랜잭션 1,000개당 $1.5
+ 개체 검색을 위한 향상된 추가 기능 트랜잭션 1,000개당 $1.5
+ "비디오 검색" 통합을 위한 향상된 추가 기능 1 수집: 동영상 분당 $0.05
트랜잭션: 동영상 쿼리 인덱스의 쿼리 1000개당 $0.25

1 비디오 처리에는 추가 토큰을 사용해서 분석용 키 프레임을 식별하는 작업이 포함됩니다. 이러한 추가 토큰의 수는 텍스트 입력에 있는 토큰에 700개 토큰을 더한 값과 거의 동일합니다.

이미지 가격 계산 예제

Important

다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.

일반적인 사용 사례의 경우 표시되는 개체와 텍스트, 100개 토큰 프롬프트 입력이 모두 있는 이미지를 사용합니다. 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이미지에서 텍스트와 개체를 모두 검색할 수 있습니다. 이 트랜잭션의 가격은 다음과 같습니다.

Item 세부 정보 비용
텍스트 프롬프트 입력 100개 텍스트 토큰 $0.001
이미지 입력 예제(이미지 토큰 참조) 이미지 토큰 170개 + 85개 $0.00255
OCR에 대한 향상된 추가 기능 1000개 트랜잭션당 $1.50 $0.0015
개체 정보 제공에 대한 향상된 추가 기능 1000개 트랜잭션당 $1.50 $0.0015
출력 토큰 토큰 100개(가정) $0.003
합계 $0.00955

비디오 가격 계산 예제

Important

다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.

일반적인 사용 사례의 경우 100개 토큰 프롬프트 입력이 포함된 3분 분량의 비디오를 시청하세요. 비디오에는 100개의 토큰 길이의 긴 대본이 있으며 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이 트랜잭션의 가격은 다음과 같습니다.

Item 세부 정보 비용
GPT-4 Turbo with Vision 입력 토큰 100개 텍스트 토큰 $0.001
프레임을 식별하는 추가 비용 입력 토큰 100개 + 토큰 700개 + 비디오 검색 트랜잭션 1개 $0.00825
이미지 입력 및 대본 입력 이미지 20개(각각 토큰 85개) + 대본 토큰 100개 $0.018
출력 토큰 토큰 100개(가정) $0.003
합계 $0.03025

또한 이 3분 분량의 비디오에 대한 비디오 검색 인덱스를 생성하는 경우 1회 인덱싱 비용이 $0.15입니다. 이 인덱스는 횟수 제한 없는 비디오 검색 및 GPT-4 Turbo with Vision API 호출에서 재사용할 수 있습니다.

제한 사항

이 섹션에서는 GPT-4 Turbo with Vision의 제한 사항에 대해 설명합니다.

이미지 지원

  • 채팅 세션당 이미지 향상에 대한 제한 사항: 향상된 기능은 단일 채팅 통화 내의 여러 이미지에 적용할 수 없습니다.
  • 최대 입력 이미지 크기: 입력 이미지의 최대 크기는 20MB로 제한됩니다.
  • 향상된 API의 개체 정보 제공: 향상된 API가 개체 정보 제공에 사용되고 모델이 개체의 중복을 검색하면, 각각에 대해 별도의 항목이 아닌 모든 중복 항목에 대해 하나의 경계 상자와 레이블이 생성됩니다.
  • 낮은 해상도 정확도: "낮은 해상도" 설정을 사용하여 이미지를 분석하면 응답 속도가 빨라지고 특정 사용 사례에 더 적은 입력 토큰이 사용됩니다. 그러나 이것은 이미지 내의 개체 및 텍스트 인식의 정확도에 영향을 미칠 수 있습니다.
  • 이미지 채팅 제한: Azure OpenAI Studio 또는 API에서 이미지를 업로드하는 경우 채팅 호출당 10개의 이미지로 제한됩니다.

비디오 지원

  • 낮은 해상도: 비디오 프레임은 비디오의 작은 개체 및 텍스트 인식의 정확도에 영향을 줄 수 있는 GPT-4 Turbo with Vision의 "낮은 해상도" 설정을 사용하여 분석됩니다.
  • 비디오 파일 제한: MP4 및 MOV 파일 형식이 모두 지원됩니다. Azure OpenAI Studio에서 비디오의 길이는 3분 미만이어야 합니다. API를 사용하는 경우 이러한 제한이 없습니다.
  • 프롬프트 제한: 비디오 프롬프트에는 하나의 비디오만 포함되고 이미지는 포함되지 않습니다. Azure OpenAI Studio에서 세션을 지우고 다른 비디오 또는 이미지를 사용해 볼 수 있습니다.
  • 제한된 프레임 선택: 서비스는 전체 비디오에서 20개의 프레임을 선택하며, 모든 중요한 순간이나 세부 정보를 캡처하지는 않을 수도 있습니다. 프레임 선택 영역은 프롬프트에 따라 비디오에서 거의 균등하게 분산되거나 특정 비디오 검색 쿼리 시 초점 대상이 될 수 있습니다.
  • 언어 지원: 이 서비스는 주로 대본에 영어로 정보를 제공하도록 지원합니다. 대본은 노래의 가사에 대한 정확한 정보를 제공하지 않습니다.

다음 단계