Bildbeschriftungen (Version 4.0)

Artikel
01/29/2024

Bildbeschriftungen in Bildanalyse 4.0 sind über die Features Beschriftung und Dichte Beschriftungen verfügbar.

„Beschriftung“ generiert eine Beschreibung in einem Satz für alle Bildinhalte. „Dichte Beschriftungen“ bietet mehr Details, indem zusätzlich zur Beschreibung des gesamten Bilds Beschreibungen von bis zu 10 Bereichen des Bilds in einem Satz generiert werden. Dense Captions gibt auch Begrenzungsrahmenkoordinaten der beschriebenen Bildbereiche zurück. Beide Features verwenden die neuesten bahnbrechenden, auf Florence basierenden KI-Modelle.

Derzeit ist die Bildbeschriftung nur in englischer Sprache verfügbar.

Wichtig

Bildbeschriftungen in Image Analysis 4.0 sind nur in den folgenden Azure-Rechenzentrumsregionen verfügbar: „USA, Osten“, „Frankreich, Mitte“, „Südkorea, Mitte“, „Europa, Norden“, „Asien, Südosten“, „Europa, Westen“, „USA, Westen“, „Asien, Osten“. Sie müssen eine Vision-Ressource in einer dieser Regionen verwenden, um Ergebnisse aus den Funktionen „Beschriftung“ und „Dichte Beschriftungen“ zu erhalten.

Wenn Sie eine Vision-Ressource außerhalb dieser Regionen verwenden müssen, um Bildbeschriftungen zu generieren, verwenden Sie die Bildanalyse 3.2, die in allen Azure KI Vision-Regionen verfügbar ist.

Testen Sie mithilfe von Vision Studio die Features zur Bilduntertitelung ganz schnell und einfach in Ihrem Browser.

Vision Studio testen

Geschlechtsneutrale Beschriftungen

Alle Beschriftungen enthalten standardmäßig Geschlechtsbegriffe: „Mann“, „Frau“, „Junge“ und „Mädchen“. Sie haben die Möglichkeit, diese Begriffe in Ihren Ergebnissen durch „Person“ zu ersetzen und geschlechtsneutrale Bestimmungen zu erhalten. Hierzu können Sie den optionalen API-Anforderungsparameter gender-neutral-caption in der Anforderungs-URL auf true festlegen.

Beispiele für „Beschriftung“ und „Dichte Beschriftung“

Caption
Dichte Beschriftungen

Die folgende JSON-Antwort veranschaulicht, was die Analyse 4.0-API bei der Beschreibung des Beispielbilds anhand seiner visuellen Merkmale zurückgibt.

Photo of a man pointing at a screen

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

Die folgende JSON-Antwort veranschaulicht, was die Analysis 4.0-API beim Generieren von dichten Beschriftungen für das Beispielbild zurückgibt.

Photo of a tractor on a farm

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

Die Bildbeschriftungsfunktion ist Teil der Bildanalyse-API. Beziehen Sie Caption in den Abfrageparameter features ein. Nachdem Sie die vollständige JSON-Antwort erhalten haben, analysieren Sie die Zeichenfolge auf die Inhalte im Abschnitt "captionResult".

Nächste Schritte

Lernen Sie das damit verbundene Konzept der Objekterkennung kennen.
Schnellstart: REST-API oder Clientbibliotheken für die Bildanalyse
Aufrufen der Bildanalyse-API

Bildbeschriftungen (Version 4.0)

Geschlechtsneutrale Beschriftungen

Beispiele für „Beschriftung“ und „Dichte Beschriftung“

Verwenden der API

Nächste Schritte

Zusätzliche Ressourcen