Bildtexter (version 4.0)

Artikel
06/13/2024

Bildtexter i bildanalys 4.0 är tillgängliga via funktionerna Bildtext och Tät bildtext .

Bildtexten genererar en beskrivning med en mening för allt bildinnehåll. Kompakta bildtexter ger mer information genom att generera en meningsbeskrivningar av upp till 10 regioner av bilden förutom att beskriva hela bilden. Kompakta bildtexter returnerar också koordinater för avgränsningsrutor för de beskrivna bildregionerna. Båda dessa funktioner använder de senaste banbrytande Florence-baserade AI-modellerna.

För närvarande är bildtexter endast tillgängliga på engelska.

Viktigt!

Bildtexter i Bildanalys 4.0 är endast tillgängliga i vissa Azure-datacenterregioner: se Regiontillgänglighet. Du måste använda en visionsresurs som finns i någon av dessa regioner för att få resultat från funktionerna Bildtext och Tät bildtext.

Om du måste använda en visionsresurs utanför dessa regioner för att generera bildtexter använder du Bildanalys 3.2 som är tillgänglig i alla Azure AI Vision-regioner.

Prova funktionerna för bildtexter snabbt och enkelt i webbläsaren med hjälp av Vision Studio.

Prova Vision Studio

Könsneutrala bildtexter

Bildtexter innehåller könstermer ("man", "kvinna", "pojke" och "flicka") som standard. Du har möjlighet att ersätta dessa termer med "person" i dina resultat och få könsneutrala bildtexter. Du kan göra det genom att ange den valfria API-begärandeparametern, gender-neutral-caption till true i begärande-URL:en.

Exempel på bildtexter och kompakta bildtexter

Bildtext
Kompakta bildtexter

Följande JSON-svar visar vad Analysis 4.0 API returnerar när du beskriver exempelbilden baserat på dess visuella funktioner.

Foto av en man som pekar på en skärm

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

Följande JSON-svar illustrerar vad Analysis 4.0 API returnerar när du genererar kompakta bildtexter för exempelbilden.

Foto av en traktor på en gård

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

Bildtextfunktionen är en del av API:et Analysera bild . Inkludera Caption i frågeparametern funktioner . När du sedan får det fullständiga JSON-svaret parsar du strängen för innehållet i "captionResult" avsnittet.

Nästa steg

Lär dig det relaterade begreppet objektidentifiering.
Snabbstart: REST API för bildanalys eller klientbibliotek
Anropa API:et Analysera bild

Dela via