Freigeben über


Image Analysis - Analyze Image

Analysieren Sie das Eingabebild. Die Anforderung enthält entweder einen Imagestream mit einem beliebigen Inhaltstyp ['image/*', 'application/octet-stream'] oder eine JSON-Nutzlast, die eine URL-Eigenschaft enthält, die zum Abrufen des Bildstreams verwendet werden soll.

POST /imageanalysis:analyze?api-version=2023-04-01-preview
POST /imageanalysis:analyze?features={features}&model-name={model-name}&language={language}&smartcrops-aspect-ratios={smartcrops-aspect-ratios}&gender-neutral-caption={gender-neutral-caption}&api-version=2023-04-01-preview

URI-Parameter

Name In Erforderlich Typ Beschreibung
api-version
query True

string

Api-Version angefordert.

features
query

VisualFeature[]

Die angeforderten visuellen Features: Tags, Objekte, Untertitel, denseCaptions, Read, smartCrops, People. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben wird.

gender-neutral-caption
query

boolean

Boolesches Flag zum Aktivieren geschlechtsneutraler Untertitel für Untertitel und features von denseCaptions. Wenn dieser Parameter nicht angegeben wird, ist der Standardwert "false".

language
query

string

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben wird, ist der Standardwert „en“. Eine Liste der unterstützten Sprachen finden Sie unter https://aka.ms/cv-languages .

model-name
query

string

Der Name des benutzerdefinierten trainierten Modells. Dieser Parameter muss angegeben werden, wenn der Parameter "features" nicht angegeben wird.

smartcrops-aspect-ratios
query

string

Eine Liste der Seitenverhältnisse, die für die smartCrops-Funktion verwendet werden sollen. Seitenverhältnisse werden berechnet, indem die Zielzuschnittbreite durch die Höhe dividiert wird. Unterstützte Werte liegen zwischen 0,75 und 1,8 (einschließlich). Mehrere Werte sollten durch Trennzeichen getrennt sein. Wenn dieser Parameter nicht angegeben wird, gibt der Dienst einen Zuschneidevorschlag mit einem Seitenverhältnis zwischen 0,5 und 2,0 (einschließlich) zurück.

Anforderungstext

Name Erforderlich Typ Beschreibung
url True

string

Öffentlich zugängliche URL eines Bilds.

Antworten

Name Typ Beschreibung
200 OK

ImageAnalysisResult

Erfolg

Other Status Codes

ErrorResponse

Fehler

Header

x-ms-error-code: string

Beispiele

AnalyzeImage_CustomModel

Beispielanforderung

POST /imageanalysis:analyze?model-name=my_model_name&api-version=2023-04-01-preview

{
  "url": "https://example.com/image.jpg"
}

Beispiel für eine Antwort

{
  "customModelResult": {
    "objectsResult": {
      "values": [
        {
          "id": "1",
          "boundingBox": {
            "x": 197,
            "y": 68,
            "w": 356,
            "h": 394
          },
          "tags": [
            {
              "name": "class1",
              "confidence": 0.92431640625
            }
          ]
        },
        {
          "id": "2",
          "boundingBox": {
            "x": 0,
            "y": 77,
            "w": 241,
            "h": 359
          },
          "tags": [
            {
              "name": "class1",
              "confidence": 0.87890625
            }
          ]
        }
      ]
    }
  },
  "modelVersion": "2023-04-01-preview",
  "metadata": {
    "width": 660,
    "height": 495
  }
}

Definitionen

Name Beschreibung
AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

AdultResult

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder gleich ist.

BoundingBox

Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.

CaptionResult

Eine kurze Beschreibung der Abbildung.

CropRegion

Eine Region, die für das intelligente Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.

DenseCaption

Eine kurze Beschreibung der Abbildung.

DenseCaptionsResult

Eine Liste von Untertiteln.

DetectedObject

Beschreibt ein erkanntes Objekt in einem Bild.

DetectedPerson

Eine Person, die in einem Bild erkannt wurde.

DocumentLine

Ein Inhaltszeilenobjekt, das aus einer benachbarten Sequenz von Inhaltselementen wie Wörtern und Auswahlzeichen besteht.

DocumentPage

Die Inhalts- und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.

DocumentSpan

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, der als Offset und Länge angegeben wird.

DocumentStyle

Ein Objekt, das beobachtete Textstile darstellt.

DocumentWord

Ein Wortobjekt, das aus einer zusammenhängenden Sequenz von Zeichen besteht. Für Sprachen ohne Leerzeichen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.

ErrorResponse

Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.

ErrorResponseDetails

Fehlerinformationen.

ErrorResponseInnerError

Detaillierter Fehler.

ImageAnalysisResult

Beschreiben sie die kombinierten Ergebnisse verschiedener Arten von Bildanalysen.

ImageMetadataApiModel

Die Metadateninformationen des Bilds, z. B. Höhe und Breite.

ImagePredictionResult

Beschreibt das Vorhersageergebnis eines Bilds.

ImageUrl

Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

PeopleResult

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

ReadResult

Die Ergebnisse eines Lesevorgangs.

SmartCropsResult

Ergebnis des intelligenten Zuschneidens.

Tag

Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

VisualFeature

Die angeforderten visuellen Features: Tags, Objekte, Untertitel, denseCaptions, Read, smartCrops, People. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben wird.

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

Name Typ Beschreibung
confidence

number

Ein Wert, der das Konfidenzniveau übereinstimmender inhalte angibt.

isMatch

boolean

Ein Wert, der angibt, ob das Bild mit erwachsenen Inhalten übereinstimmt.

AdultResult

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder gleich ist.

Name Typ Beschreibung
adult

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

gore

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

racy

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

BoundingBox

Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.

Name Typ Beschreibung
h

integer

Gemessene Höhe des linken oberen Punkts des Bereichs, in Pixeln.

w

integer

Gemessene Breite des linken oberen Punkts des Bereichs, in Pixeln.

x

integer

Linke Koordinate des linken oberen Punkts des Bereichs, in Pixeln.

y

integer

Oberste Koordinate des linken oberen Punkts des Bereichs, in Pixeln.

CaptionResult

Eine kurze Beschreibung der Abbildung.

Name Typ Beschreibung
confidence

number

Die Zuverlässigkeit, die der Dienst in der Beschriftung hat.

text

string

Der Text der Beschriftung.

CropRegion

Eine Region, die für das intelligente Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.

Name Typ Beschreibung
aspectRatio

number

Das Seitenverhältnis des Anbaubereichs.

boundingBox

BoundingBox

Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.

DenseCaption

Eine kurze Beschreibung der Abbildung.

Name Typ Beschreibung
boundingBox

BoundingBox

Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.

confidence

number

Die Zuverlässigkeit, die der Dienst in der Beschriftung hat.

text

string

Der Text der Beschriftung.

DenseCaptionsResult

Eine Liste von Untertiteln.

Name Typ Beschreibung
values

DenseCaption[]

Eine Liste von Untertiteln.

DetectedObject

Beschreibt ein erkanntes Objekt in einem Bild.

Name Typ Beschreibung
boundingBox

BoundingBox

Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.

id

string

ID des erkannten Objekts.

tags

Tag[]

Klassifizierungskonfidenzen des erkannten Objekts.

DetectedPerson

Eine Person, die in einem Bild erkannt wurde.

Name Typ Beschreibung
boundingBox

BoundingBox

Ein Begrenzungsrahmen für einen Bereich innerhalb eines Bilds.

confidence

number

Konfidenzbewertung der Person im Bild als Wert zwischen 0 und 1.

DocumentLine

Ein Inhaltszeilenobjekt, das aus einer benachbarten Sequenz von Inhaltselementen wie Wörtern und Auswahlzeichen besteht.

Name Typ Beschreibung
boundingBox

number[]

Begrenzungsrahmen der Zeile.

content

string

Verkettete Inhalte der enthaltenen Elemente in Lesereihenfolge.

spans

DocumentSpan[]

Position der Zeile in der Lesereihenfolge verketteten Inhalt.

DocumentPage

Die Inhalts- und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.

Name Typ Beschreibung
angle

number

Die allgemeine Ausrichtung des Inhalts im Uhrzeigersinn, gemessen in Grad zwischen (-180, 180).

height

number

Die Höhe des Bilds/PDF in Pixel/Zoll.

lines

DocumentLine[]

Extrahierte Zeilen aus der Seite, die möglicherweise sowohl textliche als auch visuelle Elemente enthalten.

pageNumber

integer

1-basierte Seitenzahl im Eingabedokument.

spans

DocumentSpan[]

Speicherort der Seite in der Lesereihenfolge verketteter Inhalte.

width

number

Die Breite des Bilds/PDF in Pixel/Zoll.

words

DocumentWord[]

Wörter aus der Seite extrahiert.

DocumentSpan

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, der als Offset und Länge angegeben wird.

Name Typ Beschreibung
length

integer

Anzahl der Zeichen im Inhalt, der durch die Spanne dargestellt wird.

offset

integer

Nullbasierter Index des durch die Spanne dargestellten Inhalts.

DocumentStyle

Ein Objekt, das beobachtete Textstile darstellt.

Name Typ Beschreibung
confidence

number

Vertrauen bei der korrekten Identifizierung des Stils.

isHandwritten

boolean

Inhalt ist handschriftlich geschrieben oder nicht.

spans

DocumentSpan[]

Speicherort der Textelemente im verketteten Inhalt, auf den das Format angewendet wird.

DocumentWord

Ein Wortobjekt, das aus einer zusammenhängenden Sequenz von Zeichen besteht. Für Sprachen ohne Leerzeichen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.

Name Typ Beschreibung
boundingBox

number[]

Umgebendes Feld des Worts.

confidence

number

Vertrauen beim korrekten Extrahieren des Worts.

content

string

Textinhalt des Worts.

span

DocumentSpan

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, der als Offset und Länge angegeben wird.

ErrorResponse

Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.

Name Typ Beschreibung
error

ErrorResponseDetails

Fehlerinformationen.

ErrorResponseDetails

Fehlerinformationen.

Name Typ Beschreibung
code

string

Fehlercode

details

ErrorResponseDetails[]

Liste der detaillierten Fehler.

innererror

ErrorResponseInnerError

Detaillierter Fehler.

message

string

Fehlermeldung.

target

string

Ziel des Fehlers.

ErrorResponseInnerError

Detaillierter Fehler.

Name Typ Beschreibung
code

string

Fehlercode

innererror

ErrorResponseInnerError

Detaillierter Fehler.

message

string

Fehlermeldung.

ImageAnalysisResult

Beschreiben sie die kombinierten Ergebnisse verschiedener Arten von Bildanalysen.

Name Typ Beschreibung
adultResult

AdultResult

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder gleich ist.

captionResult

CaptionResult

Eine kurze Beschreibung der Abbildung.

customModelResult

ImagePredictionResult

Beschreibt das Vorhersageergebnis eines Bilds.

denseCaptionsResult

DenseCaptionsResult

Eine Liste von Untertiteln.

metadata

ImageMetadataApiModel

Die Metadateninformationen des Bilds, z. B. Höhe und Breite.

modelVersion

string

Die Modellversion.

objectsResult

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

peopleResult

PeopleResult

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

readResult

ReadResult

Die Ergebnisse eines Lesevorgangs.

smartCropsResult

SmartCropsResult

Ergebnis des intelligenten Zuschneidens.

tagsResult

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

ImageMetadataApiModel

Die Metadateninformationen des Bilds, z. B. Höhe und Breite.

Name Typ Beschreibung
height

integer

Die Höhe des Bilds in Pixeln.

width

integer

Die Breite des Bilds in Pixeln.

ImagePredictionResult

Beschreibt das Vorhersageergebnis eines Bilds.

Name Typ Beschreibung
objectsResult

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

tagsResult

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

ImageUrl

Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.

Name Typ Beschreibung
url

string

Öffentlich zugängliche URL eines Bilds.

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

Name Typ Beschreibung
values

DetectedObject[]

Ein Array von erkannten Objekten.

PeopleResult

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

Name Typ Beschreibung
values

DetectedPerson[]

Ein Array von erkannten Personen.

ReadResult

Die Ergebnisse eines Lesevorgangs.

Name Typ Beschreibung
content

string

Verketten Sie die Zeichenfolgendarstellung aller textuellen und visuellen Elemente in Lesereihenfolge.

pages

DocumentPage[]

Eine Liste der analysierten Seiten.

stringIndexType

string

Die Methode, die zum Berechnen von Zeichenfolgenoffset und -länge verwendet wird, und mögliche Werte umfassen: "textElements", "unicodeCodePoint", "utf16CodeUnit" usw.

styles

DocumentStyle[]

Extrahierte Schriftstile.

SmartCropsResult

Ergebnis des intelligenten Zuschneidens.

Name Typ Beschreibung
values

CropRegion[]

Empfohlene Regionen zum Zuschneiden des Bilds.

Tag

Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.

Name Typ Beschreibung
confidence

number

Das Maß an Vertrauen, das die Entität beobachtet hat.

name

string

Name der Entität.

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

Name Typ Beschreibung
values

Tag[]

Eine Liste von Tags mit Konfidenzniveau.

VisualFeature

Die angeforderten visuellen Features: Tags, Objekte, Untertitel, denseCaptions, Read, smartCrops, People. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben wird.

Name Typ Beschreibung
caption

string

denseCaptions

string

objects

string

people

string

read

string

smartCrops

string

tags

string