Analysieren von Bildern

3 Minuten

Zum Analysieren eines Bilds können Sie die REST-Methode Analyze Image oder die entsprechende Methode im SDK für Ihre bevorzugte Programmiersprache verwenden und die visuellen Features angeben, die Sie in die Analyse einbeziehen möchten (wenn Sie Kategorien auswählen, können Sie auch angeben, ob Details zu Prominenten oder Sehenswürdigkeiten eingeschlossen werden sollen). Diese Methode gibt ein JSON-Dokument zurück, das die angeforderten Informationen enthält.

Hinweis

Für die Erkennung von Prominenten ist die Genehmigung durch eine Richtlinie für eingeschränkten Zugriff erforderlich. Informieren Sie sich weiter über das Hinzufügen dieser Richtlinie zu unserem verantwortungsvollen KI-Standard. Die Erkennung von Prominenten wird in manchen Screenshots aufgegriffen, ist jedoch nicht im Lab enthalten.

using Azure.AI.Vision.ImageAnalysis;

ImageAnalysisClient client = new ImageAnalysisClient(
    Environment.GetEnvironmentVariable("ENDPOINT"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("KEY")));

ImageAnalysisResult result = client.Analyze(
    new Uri("<url>"),
    VisualFeatures.Caption | VisualFeatures.Read,
    new ImageAnalysisOptions { GenderNeutralCaption = true });

from azure.ai.vision.imageanalysis import ImageAnalysisClient
from azure.ai.vision.imageanalysis.models import VisualFeatures
from azure.core.credentials import AzureKeyCredential

client = ImageAnalysisClient(
    endpoint=os.environ["ENDPOINT"],
    credential=AzureKeyCredential(os.environ["KEY"])
)

result = client.analyze(
    image_url="<url>",
    visual_features=[VisualFeatures.CAPTION, VisualFeatures.READ],
    gender_neutral_caption=True,
    language="en",
)

Verfügbare visuelle Features sind in der Enumeration VisualFeatures enthalten:

VisualFeatures.Tags: Identifiziert Tags über das Bild, dazu gehören Objekte, Landschaft, Einstellung und Aktionen
VisualFeatures.Objects: Gibt das umgebende Feld für jedes erkannte Objekt zurück
VisualFeatures.Caption: Generiert eine Beschriftung des Bilds in natürlicher Sprache
VisualFeatures.DenseCaptions: Generiert detailliertere Beschriftungen für die erkannten Objekte
VisualFeatures.People: Gibt das umgebende Feld für erkannte Personen zurück
VisualFeatures.SmartCrops: Gibt das umgebende Feld des angegebenen Seitenverhältnisses für den relevanten Bereich zurück
VisualFeatures.Read: Extrahiert lesbaren Text

VisualFeatures.TAGS: Identifiziert Tags über das Bild, dazu gehören Objekte, Landschaft, Einstellung und Aktionen
VisualFeatures.OBJECTS: Gibt das umgebende Feld für jedes erkannte Objekt zurück
VisualFeatures.CAPTION: Generiert eine Beschriftung des Bilds in natürlicher Sprache
VisualFeatures.DENSE_CAPTIONS: Generiert detailliertere Beschriftungen für die erkannten Objekte
VisualFeatures.PEOPLE: Gibt das umgebende Feld für erkannte Personen zurück
VisualFeatures.SMART_CROPS: Gibt das umgebende Feld des angegebenen Seitenverhältnisses für den relevanten Bereich zurück
VisualFeatures.READ: Extrahiert lesbaren Text

Die Angabe der visuellen Features, die Sie im Bild analysieren möchten, bestimmt, welche Informationen die Antwort enthält. Die meisten Antworten enthalten ein umgebendes Feld (wenn eine Position im Bild angemessen ist) oder eine Konfidenzbewertung (für Features wie Tags oder Untertitel).

Die JSON-Antwort für die Bildanalyse ähnelt diesem Beispiel, je nach den angeforderten Features:

{
  "apim-request-id": "abcde-1234-5678-9012-f1g2h3i4j5k6",
  "modelVersion": "<version>",
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a house in the woods",
        "confidence": 0.7055229544639587,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 640,
          "h": 640
        }
      },
      {
        "text": "a trailer with a door and windows",
        "confidence": 0.6675070524215698,
        "boundingBox": {
          "x": 214,
          "y": 434,
          "w": 154,
          "h": 108
        }
      }
    ]
  },
  "metadata": {
    "width": 640,
    "height": 640
  }
}

Weiter

Feedback