이미지 캡션(버전 4.0)

2025-05-02

이미지 분석 4.0의 이미지 캡션은 캡션 및 조밀 캡션 기능을 통해 사용할 수 있습니다.

캡션 기능은 모든 이미지 내용에 대한 한 문장 설명을 생성합니다. 조밀 캡션은 전체 이미지를 설명하는 것 외에도 이미지의 최대 10개의 다양한 영역에 대한 한 문장 설명을 생성하여 더 자세한 정보를 제공합니다. 조밀 캡션은 설명된 이미지 영역의 경계 상자 좌표도 반환합니다. 이러한 두 기능 모두 Florence 기반의 최신 AI 모델을 사용합니다.

이미지 캡션은 영어로만 사용할 수 있습니다.

중요합니다

이미지 분석 4.0의 이미지 캡션은 특정 Azure 데이터 센터 지역에서만 사용할 수 있습니다. 지역 가용성을 참조하세요. 캡션 및 조밀 캡션 기능에서 결과를 얻으려면 이러한 지역 중 하나에 있는 Azure AI 비전 리소스를 사용해야 합니다.

이러한 지역 외부에서 Vision 리소스를 사용하여 이미지 캡션을 생성해야 하는 경우 모든 Azure AI 비전 지역에서 사용할 수 있는 이미지 분석 3.2를 사용하세요.

Vision Studio를 사용하여 브라우저에서 이미지 캡션 기능을 빠르고 쉽게 사용해 보세요.

Vision Studio 사용해 보기

성 중립적 캡션

기본적으로 캡션에는 성별 용어("남자", "여자", "소년" 및 "소녀")가 포함됩니다. 이러한 용어를 결과에서 "사람"으로 바꾸고 성 중립적 캡션을 받을 수 있습니다. 요청 URL에서 선택적 API 요청 매개 변수 gender-neutral-caption을(를) true(으)로 설정하여 수행할 수 있습니다.

다음 JSON 응답은 시각적 기능을 기반으로 예제 이미지를 설명할 때 이미지 분석 4.0 API가 반환하는 내용을 보여 줍니다.

화면을 가리키는 남자의 사진

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

다음 JSON 응답은 예제 이미지에 대한 조밀 캡션을 생성할 때 이미지 분석 4.0 API가 반환하는 내용을 보여 줍니다.

농장의 트랙터 사진

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

API 사용

이미지 캡션
조밀 캡션

이미지 캡션 기능은 Analyze Image API의 일부입니다. Caption 쿼리 매개 변수에 를 포함합니다. 그런 다음, 전체 JSON 응답을 받으면 "captionResult" 섹션의 콘텐츠에 대한 문자열을 구문 분석합니다.

다음을 통해 공유

이미지 캡션(버전 4.0)

성 중립적 캡션

캡션 및 조밀 캡션 예제

API 사용

다음 단계

피드백

추가 리소스