Podpisy obrazów (wersja 4.0)

Artykuł
09/26/2024

Podpisy obrazów w usłudze Image Analysis 4.0 są dostępne za pośrednictwem funkcji Caption i Dense Captions .

Funkcja Podpis generuje jednodniowy opis całej zawartości obrazu. Transkrypcje gęste zapewniają więcej szczegółów, generując opisy jednodniowe do 10 różnych regionów obrazu oprócz opisywania całego obrazu. Napisy gęste zwracają również współrzędne pola ograniczenia dla opisanych regionów obrazu. Obie te funkcje korzystają z najnowszych modeli sztucznej inteligencji opartych na Florencji.

Podpisy obrazów są dostępne tylko w języku angielskim.

Ważne

Podpisy obrazów w usłudze Image Analysis 4.0 są dostępne tylko w niektórych regionach centrum danych platformy Azure: zobacz Dostępność regionów. Aby uzyskać wyniki z funkcji Caption i Dense Captions, musisz użyć zasobu usługi Azure AI Vision znajdującego się w jednym z tych regionów.

Jeśli chcesz użyć zasobu usługi Vision poza tymi regionami do wygenerowania podpisów obrazów, użyj funkcji Image Analysis 3.2 , która jest dostępna we wszystkich regionach usługi Azure AI Vision.

Wypróbuj funkcje podpisów obrazów szybko i łatwo w przeglądarce przy użyciu programu Vision Studio.

Wypróbuj program Vision Studio

Podpisy neutralne pod względem płci

Domyślnie podpisy zawierają terminy płci ("mężczyzna", "kobieta", "chłopiec" i "dziewczyna"). Możesz zastąpić te terminy ciągiem "person" w wynikach i otrzymywać podpisy neutralne pod względem płci. Możesz to zrobić, ustawiając opcjonalny parametr gender-neutral-caption żądania interfejsu API na true wartość w adresie URL żądania.

Poniższa odpowiedź JSON ilustruje, co interfejs API Analizy obrazów 4.0 zwraca podczas opisywania przykładowego obrazu na podstawie jego funkcji wizualnych.

Zdjęcie mężczyzny wskazującego na ekran

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

Poniższa odpowiedź JSON ilustruje, co interfejs API analizy obrazów 4.0 zwraca podczas generowania gęstych podpisów dla przykładowego obrazu.

Zdjęcie ciągnika na farmie

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

Używanie interfejsu API

Podpisy obrazów
Gęste napisy

Funkcja transkrywowania obrazów jest częścią interfejsu API analizowania obrazu . Uwzględnij Caption parametr zapytania funkcji . Następnie po otrzymaniu pełnej odpowiedzi JSON przeanalizuj ciąg zawartości "captionResult" sekcji.

Następne kroki

Poznaj powiązaną koncepcję wykrywania obiektów.
Szybki start: interfejs API REST analizy obrazów lub biblioteki klienckie
Wywoływanie interfejsu API analizowania obrazu

Udostępnij za pośrednictwem

Podpisy obrazów (wersja 4.0)

Podpisy neutralne pod względem płci

Przykłady podpisów i transkrysów gęstych

Używanie interfejsu API

Następne kroki

Opinia

Dodatkowe zasoby