다음을 통해 공유


모델 카탈로그에서 이미지-텍스트 모델을 사용하는 방법

이 문서에서는 AI Foundry 모델 카탈로그에서 이미지-텍스트 모델을 사용하는 방법을 설명합니다.

이미지-텍스트 모델은 이미지를 분석하고 표시되는 내용에 따라 설명 텍스트를 생성하도록 설계되었습니다. 카메라와 작가의 조합으로 생각하십시오. 이미지를 모델에 대한 입력으로 제공하고, 모델은 이미지를 살펴보고 개체, 사람, 장면 및 텍스트와 같은 이미지 내의 다양한 요소를 식별합니다. 그런 다음, 해당 분석에 따라 모델은 이미지에 대한 서면 설명을 생성하여 표시되는 내용을 요약합니다.

이미지-텍스트 모델은 접근성 기능, 콘텐츠 조직(태그 지정), 제품 및 교육용 시각적 설명 만들기, OCR(광학 문자 인식)을 통한 콘텐츠 디지털화 등 다양한 사용 사례에서 탁월합니다. 이미지-텍스트 모델은 시각적 콘텐츠와 서면 언어 간의 격차를 해소하여 다양한 컨텍스트에서 정보에 더 액세스 가능하고 쉽게 처리할 수 있도록 할 수 있습니다.

필수 조건

애플리케이션에서 이미지 모델을 사용하려면 다음이 필요합니다.

  • 유효한 결제 방법을 사용하는 Azure 구독입니다. 무료 또는 평가판 Azure 구독은 작동하지 않습니다. Azure 구독이 없는 경우, 시작하려면 유료 Azure 계정을 만드세요.

  • Azure AI Foundry 프로젝트입니다.

  • Azure AI Foundry의 이미지 모델 배포입니다.

    • 이 문서에서는 Mistral OCR 모델 배포를 사용합니다.
  • 엔드포인트 URL 및 키입니다.

이미지-텍스트 모델 사용

  1. API 키를 사용하여 인증합니다. 먼저 엔드포인트 URL 및 API 키를 생성하는 모델을 배포하여 서비스에 대해 인증합니다. 이 예제에서 엔드포인트 및 키는 엔드포인트 URL 및 API 키를 보유하는 문자열입니다. 모델이 배포되면 배포 + 엔드포인트 페이지에서 API 엔드포인트 URL 및 API 키를 찾을 수 있습니다.

    Bash를 사용하는 경우:

    export AZURE_API_KEY = "<your-api-key>"
    

    PowerShell에 있는 경우:

    $Env:AZURE_API_KEY = "<your-api-key>"
    

    Windows 명령 프롬프트를 사용하는 경우:

    export AZURE_API_KEY = "<your-api-key>"
    
  2. 기본 코드 샘플을 실행합니다. 다른 이미지 모델은 서로 다른 데이터 형식을 허용합니다. 이 예제에서 Mistral OCR 25.03 은 base64로 인코딩된 데이터만 지원합니다. 문서 URL 또는 이미지 URL은 지원되지 않습니다. 다음 코드를 셸에 붙여넣습니다.

    curl --request POST \
      --url https://<your_serverless_endpoint>/v1/ocr \
      --header 'Authorization: <api_key>' \
      --header 'Content-Type: Application/json' \
      --data '{
      "model": "mistral-ocr-2503",
      "document": {
        "type": "document_url",
        "document_name": "test",
        "document_url": "data:application/pdf;base64,JVBER... <replace with your base64 encoded image data>"
      }
    }'
    

Mistral OCR 25.03에 대한 추가 코드 샘플

PDF 파일을 처리하려면 다음을 수행합니다.

# Read the pdf file
input_file_path="assets/2201.04234v3.pdf"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/pdf;base64,${base64_value}"
# echo $input_base64_value
 
# Prepare JSON data
payload_body=$(cat <<EOF
{
    "model": "mistral-ocr-2503",
    "document": {
        "type": "document_url",
        "document_url": "$input_base64_value"
    },
    "include_image_base64": true
}
EOF
)

echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
  -d @- -o ocr_pdf_output.json

이미지 파일을 처리하려면 다음을 수행합니다.

# Read the image file
input_file_path="assets/receipt.png"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/png;base64,${base64_value}"
# echo $input_base64_value
 
# Prepare JSON data
payload_body=$(cat <<EOF
{
    "model": "mistral-ocr-2503",
    "document": {
        "type": "image_url",
        "image_url": "$input_base64_value"
    },
    "include_image_base64": true
}
EOF
)
 
# Process the base64 data with ocr endpoint
echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
  -d @- -o ocr_png_output.json

모델별 매개 변수

일부 이미지-텍스트 모델은 특정 데이터 형식만 지원합니다. 예를 들어 Mistral OCR 25.03에는 매개 변수가 base64 encoded image datadocument_url 필요합니다. 다음 표에서는 모델 카탈로그의 이미지 모델에 대해 지원되는 데이터 형식과 지원되지 않는 데이터 형식을 나열합니다.

모델 지원됨 지원되지 않음
Mistral OCR 25.03 base64로 인코딩된 이미지 데이터 문서 URL, 이미지 URL