Azure OpenAI 에서 GPT-4 모델을 활용하여 API 연계시 이미지 전송

Question

Azure OpenAI 에서 GPT-4 모델을 활용하여 API 연계를 하고 있습니다.

하고 싶은 것은 이미지를 제공하고 이미지에 있는 데이터를 받고 싶은데요.

API 응답으로 '이미지 인식 기능을 지원하지 않습니다. 텍스트로 정보를 제공해주시면 도움을 드릴 수 있습니다' 라고 오고 있습니다.

현재 Azure OpenAI 의 GPT-4는 OpenAI에서 다중 모드로 설계되었지만 현재는 텍스트 입력 및 출력만 지원되는지 궁금합니다.

또한 이미지 입출력을 할 수 있는 방법이 DALL-E를 사용하는 것인지도 궁금합니다.

Accepted Answer

Azure OpenAI의 GPT-4 모델은 현재 텍스트 입력 및 출력만을 지원하고 있습니다. 하지만 Azure OpenAI 서비스에서 이미지 관련 기능을 사용할 수 있는 몇 가지 옵션이 있습니다:

GPT-4 Turbo with Vision: 이 모델은 이미지를 분석하고 이에 대한 텍스트 응답을 제공할 수 있습니다. 이 모델은 gpt-4 버전: turbo-2024-04-09에서 사용 가능합니다.
DALL-E: Azure OpenAI 서비스에서 제공하는 DALL-E 모델을 사용하면 텍스트 프롬프트를 기반으로 이미지를 생성할 수 있습니다. 이는 이미지 생성에 특화된 모델입니다.
Azure AI Vision: Azure OpenAI와 통합하여 이미지 분석 기능을 향상시킬 수 있습니다. 이를 통해 개체 인식, OCR(광학 문자 인식) 등의 기능을 활용할 수 있습니다.

요구사항인 이미지에서 데이터를 추출하는 기능을 위해서는 GPT-4 Turbo with Vision 모델을 사용하는 것이 가장 적합할 것 같습니다. 이 모델은 이미지를 분석하고 이에 대한 텍스트 응답을 제공할 수 있습니다.

(DALL-E는 주로 이미지 생성에 사용되므로, 이미지에서 데이터를 추출하는 용도로는 적합하지 않습니다)

현재로서는 GPT-4 Turbo with Vision 모델을 사용하여 이미지 분석 기능을 활용하는 것이 가장 좋은 방법일 것 같습니다. 이 모델을 사용하려면 Azure OpenAI 서비스 설정을 업데이트하고, API 호출 시 적절한 모델 버전을 지정해야 할 수 있습니다.

다음을 통해 공유

Azure OpenAI 에서 GPT-4 모델을 활용하여 API 연계시 이미지 전송

0 추가 답변