Datenschemas zum Trainieren von Modellen für maschinelles Sehen mit automatisiertem maschinellem Lernen

Artikel
09/01/2024

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Hier erfahren Sie, wie Sie Ihre JSONL-Dateien in den Trainings- und Rückschlussphasen für die Datennutzung in automatisierten ML-Experimenten für Aufgaben des maschinellen Sehens formatieren.

Datenschema für das Training

Das automatisierte maschinelle Lernen von Azure Machine Learning für Bilder erfordert, dass Eingabebilddaten im JSONL-Format (JSON Lines) vorbereitet werden. In diesem Abschnitt werden Eingabedatenformate bzw. -schemas für die Bildklassifizierung mit mehreren Klassen, die Bildklassifizierung mit mehreren Beschriftungen, die Objekterkennung und die Instanzsegmentierung beschrieben. Wir stellen auch eine JSON Lines-Beispieldatei für das abschließende Training bzw. die Validierung zur Verfügung.

Bildklassifizierung (binär/mehrere Klassen)

Eingabedatenformat/-schema in jeder JSON Lines-Datei:

{
   "image_url":"azureml://subscriptions/<my-subscription-id>/resourcegroups/<my-resource-group>/workspaces/<my-workspace>/datastores/<my-datastore>/paths/<path_to_image>",
   "image_details":{
      "format":"image_format",
      "width":"image_width",
      "height":"image_height"
   },
   "label":"class_name",
}

Schlüssel	BESCHREIBUNG	Beispiel
`image_url`	Bildspeicherort im Azure Machine Learning-Datenspeicher `my-subscription-id` muss durch das Azure-Abonnement ersetzt werden, in dem sich die Bilder befinden. Weitere Informationen zu Azure-Abonnements finden Sie hier. Ähnlich sollten `my-resource-group`, `my-workspace`, `my-datastore` durch den Ressourcengruppennamen, den Arbeitsbereichsnamen und den Datenspeichernamen ersetzt werden. `path_to_image` sollte der vollständige Pfad zum Bild im Datenspeicher sein. `Required, String`	`"azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg"`
`image_details`	Bilddetails `Optional, Dictionary`	`"image_details":{"format": "jpg", "width": "400px", "height": "258px"}`
`format`	Bildtyp (alle verfügbaren Bildformate in der Pillow-Bibliothek werden unterstützt) `Optional, String from {"jpg", "jpeg", "png", "jpe", "jfif","bmp", "tif", "tiff"}`	`"jpg" or "jpeg" or "png" or "jpe" or "jfif" or "bmp" or "tif" or "tiff"`
`width`	Bildbreite `Optional, String or Positive Integer`	`"400px" or 400`
`height`	Bildhöhe `Optional, String or Positive Integer`	`"200px" or 200`
`label`	Klasse/Beschriftung des Bilds `Required, String`	`"cat"`

Beispiel einer JSONL-Datei für die Bildklassifizierung mit mehreren Klassen:

{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg", "image_details":{"format": "jpg", "width": "400px", "height": "258px"}, "label": "can"}
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_02.jpg", "image_details": {"format": "jpg", "width": "397px", "height": "296px"}, "label": "milk_bottle"}
.
.
.
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_n.jpg", "image_details": {"format": "jpg", "width": "1024px", "height": "768px"}, "label": "water_bottle"}

Bildbeispiel für die Bildklassifizierung mit mehreren Klassen.

Bildklassifizierung mit mehreren Beschriftungen

Im Folgenden finden Sie ein Beispiel für das Eingabedatenformat/-schema in jeder JSON Lines-Datei für die Bildklassifizierung.

{
   "image_url":"azureml://subscriptions/<my-subscription-id>/resourcegroups/<my-resource-group>/workspaces/<my-workspace>/datastores/<my-datastore>/paths/<path_to_image>",
   "image_details":{
      "format":"image_format",
      "width":"image_width",
      "height":"image_height"
   },
   "label":[
      "class_name_1",
      "class_name_2",
      "class_name_3",
      "...",
      "class_name_n"
        
   ]
}

Schlüssel	BESCHREIBUNG	Beispiel
`image_url`	Bildspeicherort im Azure Machine Learning-Datenspeicher `my-subscription-id` muss durch das Azure-Abonnement ersetzt werden, in dem sich die Bilder befinden. Weitere Informationen zu Azure-Abonnements finden Sie hier. Ähnlich sollten `my-resource-group`, `my-workspace`, `my-datastore` durch den Ressourcengruppennamen, den Arbeitsbereichsnamen und den Datenspeichernamen ersetzt werden. `path_to_image` sollte der vollständige Pfad zum Bild im Datenspeicher sein. `Required, String`	`"azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg"`
`image_details`	Bilddetails `Optional, Dictionary`	`"image_details":{"format": "jpg", "width": "400px", "height": "258px"}`
`format`	Bildtyp (alle verfügbaren Bildformate in der Pillow-Bibliothek werden unterstützt) `Optional, String from {"jpg", "jpeg", "png", "jpe", "jfif", "bmp", "tif", "tiff"}`	`"jpg" or "jpeg" or "png" or "jpe" or "jfif" or "bmp" or "tif" or "tiff"`
`width`	Bildbreite `Optional, String or Positive Integer`	`"400px" or 400`
`height`	Bildhöhe `Optional, String or Positive Integer`	`"200px" or 200`
`label`	Liste der Klassen/Beschriftungen im Bild `Required, List of Strings`	`["cat","dog"]`

Beispiel für eine JSONL-Datei für die Bildklassifizierung mit mehreren Beschriftungen:

{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg", "image_details":{"format": "jpg", "width": "400px", "height": "258px"}, "label": ["can"]}
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_02.jpg", "image_details": {"format": "jpg", "width": "397px", "height": "296px"}, "label": ["can","milk_bottle"]}
.
.
.
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_n.jpg", "image_details": {"format": "jpg", "width": "1024px", "height": "768px"}, "label": ["carton","milk_bottle","water_bottle"]}

Bildbeispiel für die Bildklassifizierung mit mehreren Beschriftungen.

Objekterkennung

Im Folgenden finden Sie eine JSONL-Beispieldatei für die Objekterkennung.

{
   "image_url":"azureml://subscriptions/<my-subscription-id>/resourcegroups/<my-resource-group>/workspaces/<my-workspace>/datastores/<my-datastore>/paths/<path_to_image>",
   "image_details":{
      "format":"image_format",
      "width":"image_width",
      "height":"image_height"
   },
   "label":[
      {
         "label":"class_name_1",
         "topX":"xmin/width",
         "topY":"ymin/height",
         "bottomX":"xmax/width",
         "bottomY":"ymax/height",
         "isCrowd":"isCrowd"
      },
      {
         "label":"class_name_2",
         "topX":"xmin/width",
         "topY":"ymin/height",
         "bottomX":"xmax/width",
         "bottomY":"ymax/height",
         "isCrowd":"isCrowd"
      },
      "..."
   ]
}

Hier gilt Folgendes:

xmin = x-Koordinate der oberen linken Ecke des Begrenzungsrahmens
ymin = y-Koordinate der oberen linken Ecke des Begrenzungsrahmens
xmax = x-Koordinate der rechten unteren Ecke des Begrenzungsrahmens
ymax = y-Koordinate der rechten unteren Ecke des Begrenzungsrahmens

Key	BESCHREIBUNG	Beispiel
`image_url`	Bildspeicherort im Azure Machine Learning-Datenspeicher `my-subscription-id` muss durch das Azure-Abonnement ersetzt werden, in dem sich die Bilder befinden. Weitere Informationen zu Azure-Abonnements finden Sie hier. Ähnlich sollten `my-resource-group`, `my-workspace`, `my-datastore` durch den Ressourcengruppennamen, den Arbeitsbereichsnamen und den Datenspeichernamen ersetzt werden. `path_to_image` sollte der vollständige Pfad zum Bild im Datenspeicher sein. `Required, String`	`"azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg"`
`image_details`	Bilddetails `Optional, Dictionary`	`"image_details":{"format": "jpg", "width": "400px", "height": "258px"}`
`format`	Bildtyp (alle Bildformate, die in der Pillow-Bibliothek verfügbar sind, werden unterstützt. Für YOLO werden jedoch nur von opencv zulässige Bildformate unterstützt.) `Optional, String from {"jpg", "jpeg", "png", "jpe", "jfif", "bmp", "tif", "tiff"}`	`"jpg" or "jpeg" or "png" or "jpe" or "jfif" or "bmp" or "tif" or "tiff"`
`width`	Bildbreite `Optional, String or Positive Integer`	`"499px" or 499`
`height`	Bildhöhe `Optional, String or Positive Integer`	`"665px" or 665`
`label` (äußerer Schlüssel)	Liste der Begrenzungsrahmen, wobei jeder Rahmen ein `label, topX, topY, bottomX, bottomY, isCrowd`-Wörterbuch der Koordinaten für die obere linke und die untere rechte Ecke ist `Required, List of dictionaries`	`[{"label": "cat", "topX": 0.260, "topY": 0.406, "bottomX": 0.735, "bottomY": 0.701, "isCrowd": 0}]`
`label` (innerer Schlüssel)	Klasse/Beschriftung des Objekts im Begrenzungsrahmen `Required, String`	`"cat"`
`topX`	Verhältnis zwischen der x-Koordinate der oberen linken Ecke des Begrenzungsrahmens und der Breite des Bilds `Required, Float in the range [0,1]`	`0.260`
`topY`	Verhältnis zwischen der y-Koordinate der oberen linken Ecke des Begrenzungsrahmens und der Höhe des Bilds `Required, Float in the range [0,1]`	`0.406`
`bottomX`	Verhältnis zwischen der x-Koordinate der unteren rechten Ecke des Begrenzungsrahmens und der Breite des Bilds `Required, Float in the range [0,1]`	`0.735`
`bottomY`	Verhältnis zwischen der y-Koordinate der unteren rechten Ecke des Begrenzungsrahmens und der Höhe des Bilds `Required, Float in the range [0,1]`	`0.701`
`isCrowd`	Gibt an, ob sich der Begrenzungsrahmen um die Hauptmenge an Objekten befindet; Wenn dieses spezielle Flag festgelegt ist, wird dieser Begrenzungsrahmen beim Berechnen der Metrik übersprungen `Optional, Bool`	`0`

Beispiel für eine JSONL-Datei für die Objekterkennung:

{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg", "image_details": {"format": "jpg", "width": "499px", "height": "666px"}, "label": [{"label": "can", "topX": 0.260, "topY": 0.406, "bottomX": 0.735, "bottomY": 0.701, "isCrowd": 0}]}
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_02.jpg", "image_details": {"format": "jpg", "width": "499px", "height": "666px"}, "label": [{"label": "carton", "topX": 0.172, "topY": 0.153, "bottomX": 0.432, "bottomY": 0.659, "isCrowd": 0}, {"label": "milk_bottle", "topX": 0.300, "topY": 0.566, "bottomX": 0.891, "bottomY": 0.735, "isCrowd": 0}]}
.
.
.
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_n.jpg", "image_details": {"format": "jpg", "width": "499px", "height": "666px"}, "label": [{"label": "carton", "topX": 0.0180, "topY": 0.297, "bottomX": 0.380, "bottomY": 0.836, "isCrowd": 0}, {"label": "milk_bottle", "topX": 0.454, "topY": 0.348, "bottomX": 0.613, "bottomY": 0.683, "isCrowd": 0}, {"label": "water_bottle", "topX": 0.667, "topY": 0.279, "bottomX": 0.841, "bottomY": 0.615, "isCrowd": 0}]}

Bildbeispiel für die Objekterkennung.

Instanzsegmentierung

Zur Segmentierung von Instanzen unterstützt das automatisierte maschinelle Lernen nur Polygone als Ein- und Ausgabe, keine Masken.

Im Folgenden finden Sie eine JSONL-Beispieldatei für die Instanzsegmentierung:

{
   "image_url":"azureml://subscriptions/<my-subscription-id>/resourcegroups/<my-resource-group>/workspaces/<my-workspace>/datastores/<my-datastore>/paths/<path_to_image>",
   "image_details":{
      "format":"image_format",
      "width":"image_width",
      "height":"image_height"
   },
   "label":[
      {
         "label":"class_name",
         "isCrowd":"isCrowd",
         "polygon":[["x1", "y1", "x2", "y2", "x3", "y3", "...", "xn", "yn"]]
      }
   ]
}

Schlüssel	BESCHREIBUNG	Beispiel
`image_url`	Bildspeicherort im Azure Machine Learning-Datenspeicher `my-subscription-id` muss durch das Azure-Abonnement ersetzt werden, in dem sich die Bilder befinden. Weitere Informationen zu Azure-Abonnements finden Sie hier. Ähnlich sollten `my-resource-group`, `my-workspace`, `my-datastore` durch den Ressourcengruppennamen, den Arbeitsbereichsnamen und den Datenspeichernamen ersetzt werden. `path_to_image` sollte der vollständige Pfad zum Bild im Datenspeicher sein. `Required, String`	`"azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg"`
`image_details`	Bilddetails `Optional, Dictionary`	`"image_details":{"format": "jpg", "width": "400px", "height": "258px"}`
`format`	Imagetyp `Optional, String from {"jpg", "jpeg", "png", "jpe", "jfif", "bmp", "tif", "tiff" }`	`"jpg" or "jpeg" or "png" or "jpe" or "jfif" or "bmp" or "tif" or "tiff"`
`width`	Bildbreite `Optional, String or Positive Integer`	`"499px" or 499`
`height`	Bildhöhe `Optional, String or Positive Integer`	`"665px" or 665`
`label` (äußerer Schlüssel)	Liste der Masken, wobei jede Maske ein Wörterbuch aus `label, isCrowd, polygon coordinates` ist `Required, List of dictionaries`	`[{"label": "can", "isCrowd": 0, "polygon": [[0.577, 0.689,` `0.562, 0.681,` `0.559, 0.686]]}]`
`label` (innerer Schlüssel)	Klasse/Beschriftung des Objekts in der Maske `Required, String`	`"cat"`
`isCrowd`	Gibt an, ob sich die Maske um die Hauptmenge an Objekten befindet `Optional, Bool`	`0`
`polygon`	Polygonkoordinaten für das Objekt `Required, List of list for multiple segments of the same instance. Float values in the range [0,1]`	`[[0.577, 0.689, 0.567, 0.689, 0.559, 0.686]]`

Beispiel für eine JSONL-Datei für Instanzsegmentierung:

{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_01.jpg", "image_details": {"format": "jpg", "width": "499px", "height": "666px"}, "label": [{"label": "can", "isCrowd": 0, "polygon": [[0.577, 0.689, 0.567, 0.689, 0.559, 0.686, 0.380, 0.593, 0.304, 0.555, 0.294, 0.545, 0.290, 0.534, 0.274, 0.512, 0.2705, 0.496, 0.270, 0.478, 0.284, 0.453, 0.308, 0.432, 0.326, 0.423, 0.356, 0.415, 0.418, 0.417, 0.635, 0.493, 0.683, 0.507, 0.701, 0.518, 0.709, 0.528, 0.713, 0.545, 0.719, 0.554, 0.719, 0.579, 0.713, 0.597, 0.697, 0.621, 0.695, 0.629, 0.631, 0.678, 0.619, 0.683, 0.595, 0.683, 0.577, 0.689]]}]}
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_02.jpg", "image_details": {"format": "jpg", "width": "499px", "height": "666px"}, "label": [{"label": "carton", "isCrowd": 0, "polygon": [[0.240, 0.65, 0.234, 0.654, 0.230, 0.647, 0.210, 0.512, 0.202, 0.403, 0.182, 0.267, 0.184, 0.243, 0.180, 0.166, 0.186, 0.159, 0.198, 0.156, 0.396, 0.162, 0.408, 0.169, 0.406, 0.217, 0.414, 0.249, 0.422, 0.262, 0.422, 0.569, 0.342, 0.569, 0.334, 0.572, 0.320, 0.585, 0.308, 0.624, 0.306, 0.648, 0.240, 0.657]]}, {"label": "milk_bottle",  "isCrowd": 0, "polygon": [[0.675, 0.732, 0.635, 0.731, 0.621, 0.725, 0.573, 0.717, 0.516, 0.717, 0.505, 0.720, 0.462, 0.722, 0.438, 0.719, 0.396, 0.719, 0.358, 0.714, 0.334, 0.714, 0.322, 0.711, 0.312, 0.701, 0.306, 0.687, 0.304, 0.663, 0.308, 0.630, 0.320, 0.596, 0.32, 0.588, 0.326, 0.579]]}]}
.
.
.
{"image_url": "azureml://subscriptions/my-subscription-id/resourcegroups/my-resource-group/workspaces/my-workspace/datastores/my-datastore/paths/image_data/Image_n.jpg", "image_details": {"format": "jpg", "width": "499px", "height": "666px"}, "label": [{"label": "water_bottle", "isCrowd": 0, "polygon": [[0.334, 0.626, 0.304, 0.621, 0.254, 0.603, 0.164, 0.605, 0.158, 0.602, 0.146, 0.602, 0.142, 0.608, 0.094, 0.612, 0.084, 0.599, 0.080, 0.585, 0.080, 0.539, 0.082, 0.536, 0.092, 0.533, 0.126, 0.530, 0.132, 0.533, 0.144, 0.533, 0.162, 0.525, 0.172, 0.525, 0.186, 0.521, 0.196, 0.521 ]]}, {"label": "milk_bottle", "isCrowd": 0, "polygon": [[0.392, 0.773, 0.380, 0.732, 0.379, 0.767, 0.367, 0.755, 0.362, 0.735, 0.362, 0.714, 0.352, 0.644, 0.352, 0.611, 0.362, 0.597, 0.40, 0.593, 0.444,  0.494, 0.588, 0.515, 0.585, 0.621, 0.588, 0.671, 0.582, 0.713, 0.572, 0.753 ]]}]}

Bildbeispiel für die Instanzsegmentierung.

Datenschema für die Onlinebewertung

In diesem Abschnitt wird das Eingabedatenformat dokumentiert, das für Vorhersagen mithilfe eines bereitgestellten Modells erforderlich ist.

Eingabeformat

Der folgende JSON-Code zeigt das Eingabeformat, das zum Generieren von Vorhersagen für eine beliebige Aufgabe mithilfe eines aufgabenspezifischen Modellendpunkts erforderlich ist:

{
   "input_data": {
      "columns": [
         "image"
      ],
      "data": [
         "image_in_base64_string_format"
      ]
   }
}

Dieser JSON-Code ist ein Wörterbuch mit input_data für äußere Schlüssel und columns, data für innere Schlüssel wie in der folgenden Tabelle beschrieben. Der Endpunkt akzeptiert eine JSON-Zeichenfolge im oben genannten Format und konvertiert sie in einen Datenrahmen mit Beispielen, die vom Bewertungsskript benötigt werden. Jedes Eingabebild im Abschnitt request_json["input_data"]["data"] des JSON-Codes ist eine Base64-codierte Zeichenfolge.

Schlüssel	BESCHREIBUNG
`input_data` (äußerer Schlüssel)	Es handelt sich um einen äußeren Schlüssel in der JSON-Anforderung. `input_data` ist ein Wörterbuch, das Eingabebildbeispiele akzeptiert `Required, Dictionary`
`columns` (innerer Schlüssel)	Spaltennamen, die zum Erstellen von Datenrahmen verwendet werden sollen. Es wird nur eine Spalte mit dem Spaltennamen `image` akzeptiert. `Required, List`
`data` (innerer Schlüssel)	Liste der base64-codierten Bilder `Required, List`

Nach dem Bereitstellen des mlflow-Modells können wir den folgenden Codeausschnitt verwenden, um Vorhersagen für alle Aufgaben abzurufen:

# Create request json
import base64

sample_image = os.path.join(dataset_dir, "images", "1.jpg")


def read_image(image_path):
    with open(image_path, "rb") as f:
        return f.read()


request_json = {
    "input_data": {
        "columns": ["image"],
        "data": [base64.encodebytes(read_image(sample_image)).decode("utf-8")],
    }
}

import json

request_file_name = "sample_request_data.json"

with open(request_file_name, "w") as request_file:
    json.dump(request_json, request_file)

resp = ml_client.online_endpoints.invoke(
    endpoint_name=online_endpoint_name,
    deployment_name=deployment.name,
    request_file=request_file_name,
)

Ausgabeformat

Vorhersagen für Modellendpunkte folgen je nach Aufgabentyp einer unterschiedlichen Struktur. In diesem Abschnitt werden die Ausgabedatenformate für folgende Aufgaben erläutert: Bildklassifizierungen mit mehreren Klassen, Bildklassifizierungen mit mehreren Beschriftungen, Objekterkennung und Instanzsegmentierung.

Die folgenden Schemas gelten, wenn die Eingabeanforderung ein Bild enthält.

Bildklassifizierung (binär/mehrere Klassen)

Der Endpunkt für die Bildklassifizierung gibt alle Beschriftungen im Dataset und deren Wahrscheinlichkeitsbewertungen für das Eingabebild im folgenden Format zurück. visualizations und attributions beziehen sich auf die Erklärbarkeit, und wenn die Anforderung nur für die Bewertung verwendet wird, werden diese Schlüssel nicht in der Ausgabe enthalten sein. Weitere Informationen zum Ein- und Ausgabeschema zur Erklärbarkeit für die Bildklassifizierung finden Sie im Abschnitt zur Erklärbarkeit für die Bildklassifizierung.

[
   {
      "probs": [
         2.098e-06,
         4.783e-08,
         0.999,
         8.637e-06
      ],
      "labels": [
         "can",
         "carton",
         "milk_bottle",
         "water_bottle"
      ]
   }
]

Bildklassifizierung mit mehreren Beschriftungen

Für die Bildklassifizierung mit mehreren Beschriftungen gibt der Modellendpunkt Beschriftungen und deren Wahrscheinlichkeiten zurück. visualizations und attributions beziehen sich auf die Erklärbarkeit, und wenn die Anforderung nur für die Bewertung verwendet wird, werden diese Schlüssel nicht in der Ausgabe enthalten sein. Weitere Informationen zum Ein- und Ausgabeschema zur Erklärbarkeit für die Klassifizierung mit mehreren Bezeichnungen finden Sie im Abschnitt zur Erklärbarkeit für die Bildklassifizierung mit mehreren Bezeichnungen.

[
   {
      "probs": [
         0.997,
         0.960,
         0.982,
         0.025
      ],
      "labels": [
         "can",
         "carton",
         "milk_bottle",
         "water_bottle"
      ]
   }
]

Objekterkennung

Das Objekterkennungsmodell gibt mehrere Rahmen mit ihren skalierten Koordinaten für die obere linke und die untere rechte Ecke zusammen mit der Rahmenbeschriftung und einer Konfidenzbewertung zurück.

[
   {
      "boxes": [
         {
            "box": {
               "topX": 0.224,
               "topY": 0.285,
               "bottomX": 0.399,
               "bottomY": 0.620
            },
            "label": "milk_bottle",
            "score": 0.937
         },
         {
            "box": {
               "topX": 0.664,
               "topY": 0.484,
               "bottomX": 0.959,
               "bottomY": 0.812
            },
            "label": "can",
            "score": 0.891
         },
         {
            "box": {
               "topX": 0.423,
               "topY": 0.253,
               "bottomX": 0.632,
               "bottomY": 0.725
            },
            "label": "water_bottle",
            "score": 0.876
         }
      ]
   }
]

Instanzsegmentierung

Bei der Instanzsegmentierung besteht die Ausgabe aus mehreren Rahmen mit skalierten Koordinaten für die obere linke und die untere rechte Ecke, Beschriftungen, Konfidenzbewertungen und Polygonen (keine Masken). Hier haben die Polygonwerte das gleiche Format, das im Abschnitt Schema erläutert wurde.

[
    {
       "boxes": [
          {
             "box": {
                "topX": 0.679,
                "topY": 0.491,
                "bottomX": 0.926,
                "bottomY": 0.810
             },
             "label": "can",
             "score": 0.992,
             "polygon": [
                [
                   0.82, 0.811, 0.771, 0.810, 0.758, 0.805, 0.741, 0.797, 0.735, 0.791, 0.718, 0.785, 0.715, 0.778, 0.706, 0.775, 0.696, 0.758, 0.695, 0.717, 0.698, 0.567, 0.705, 0.552, 0.706, 0.540, 0.725, 0.520, 0.735, 0.505, 0.745, 0.502, 0.755, 0.493
                ]
             ]
          },
          {
             "box": {
                "topX": 0.220,
                "topY": 0.298,
                "bottomX": 0.397,
                "bottomY": 0.601
             },
             "label": "milk_bottle",
             "score": 0.989,
             "polygon": [
                [
                   0.365, 0.602, 0.273, 0.602, 0.26, 0.595, 0.263, 0.588, 0.251, 0.546, 0.248, 0.501, 0.25, 0.485, 0.246, 0.478, 0.245, 0.463, 0.233, 0.442, 0.231, 0.43, 0.226, 0.423, 0.226, 0.408, 0.234, 0.385, 0.241, 0.371, 0.238, 0.345, 0.234, 0.335, 0.233, 0.325, 0.24, 0.305, 0.586, 0.38, 0.592, 0.375, 0.598, 0.365
                ]
             ]
          },
          {
             "box": {
                "topX": 0.433,
                "topY": 0.280,
                "bottomX": 0.621,
                "bottomY": 0.679
             },
             "label": "water_bottle",
             "score": 0.988,
             "polygon": [
                [
                   0.576, 0.680, 0.501, 0.680, 0.475, 0.675, 0.460, 0.625, 0.445, 0.630, 0.443, 0.572, 0.440, 0.560, 0.435, 0.515, 0.431, 0.501, 0.431, 0.433, 0.433, 0.426, 0.445, 0.417, 0.456, 0.407, 0.465, 0.381, 0.468, 0.327, 0.471, 0.318
                ]
             ]
          }
       ]
    }
]

Datenformat für Onlinebewertung und Erklärbarkeit (XAI)

Wichtig

Diese Einstellungen sind derzeit in der öffentlichen Vorschau. Sie werden ohne Vereinbarung zum Servicelevel bereitgestellt. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Warnung

Die Erklärbarkeit wird nur für die Klassifizierung mit mehreren Klassen und die Klassifizierung mit mehreren Bezeichnungen unterstützt. Wenn beim Generieren von Erklärungen für Onlineendpunkte Timeoutprobleme auftreten, verwenden Sie das Batchbewertungs-Notebook (SDK v1), um Erklärungen zu generieren.

In diesem Abschnitt wird das Eingabedatenformat dokumentiert, das für Vorhersagen und das Generieren von Erklärungen für die vorhergesagten Klassen mithilfe eines bereitgestellten Modells erforderlich ist. Für Erklärbarkeit ist keine separate Bereitstellung erforderlich. Derselbe Endpunkt, der bei der Onlinebewertung zum Einsatz kommt, kann auch zum Generieren von Erklärungen verwendet werden. Wir müssen nur einige zusätzliche Erklärbarkeitsparameter im Eingabeschema übergeben und entweder Visualisierungen von Erklärungen und/oder Zuordnungsbewertungsmatrizen (Erklärungen auf Pixelebene) abrufen.

Unterstützte Erklärbarkeitsmethoden:

XRAI (xrai)
Integrierte Gradienten (integrated_gradients)
Gesteuerte GradCAM (guided_gradcam)
Gesteuerte BackPropagation (guided_backprop)

Eingabeformat (XAI)

Die folgenden Eingabeformate werden unterstützt, um Vorhersagen und Erklärungen für jede Klassifizierungsaufgabe mithilfe des aufgabenspezifischen Modellendpunkts zu generieren. Nach dem Bereitstellen des Modells können wir das folgende Schema verwenden, um Vorhersagen und Erklärungen abzurufen.

{
   "input_data": {
      "columns": ["image"],
      "data": [json.dumps({"image_base64": "image_in_base64_string_format", 
                           "model_explainability": True,
                           "xai_parameters": {}
                         })
      ]
   }
}

Zusammen mit dem Bild sind zwei zusätzliche Parameter (model_explainability und xai_parameters) im Eingabeschema erforderlich, um Erklärungen zu generieren.

Schlüssel	BESCHREIBUNG	Standardwert
`image_base64`	Eingabebild im Base64-Format `Required, String`	-
`model_explainability`	Gibt an, ob Erklärungen oder nur die Bewertung generiert werden soll(en) `Optional, Bool`	`False`
`xai_parameters`	Wenn `model_explainability` auf „True“ festgelegt ist, dann ist `xai_parameters` ein Wörterbuch mit auf den Erklärbarkeitsalgorithmus bezogenen Parametern mit `xai_algorithm`, `visualizations`, `attributions` als Schlüssel. `Optional, Dictionary` Wenn `xai_parameters` nicht übergeben wird, wird der `xrai`-Erklärbarkeitsalgorithmus mit seinem Standardwert verwendet.	`{"xai_algorithm": "xrai", "visualizations": True, "attributions": False}`
`xai_algorithm`	Name des zu verwendenden Erklärbarkeitsalgorithmus. Unterstützte XAI-Algorithmen: {`xrai`, `integrated_gradients`, `guided_gradcam`, `guided_backprop`} `Optional, String`	`xrai`
`visualizations`	Gibt an, ob Visualisierungen von Erklärungen zurückgegeben werden sollen. `Optional, Bool`	`True`
`attributions`	Gibt an, ob Featurezuordnungen zurückgegeben werden sollen. `Optional, Bool`	`False`
`confidence_score_threshold_multilabel`	Schwellenwert für die Konfidenzbewertung, um die obersten Klassen auszuwählen und Erklärungen in der Klassifizierung mit mehreren Bezeichnungen zu generieren. `Optional, Float`	`0.5`

In der folgenden Tabelle werden die unterstützten Schemas zur Erklärbarkeit beschrieben.

type	Schema
Rückschluss für ein einzelnes Bild im Base64-Format	Wörterbuch mit `image_base64` als Schlüssel und Wert ist base64-codiertes Bild, `model_explainability` key with True or False and `xai_parameters` dictionary with XAI algorithm specific parameters `Required, Json String` `Works for one or more images`

Jedes Eingabebild in request_json, das im folgenden Code definiert ist, ist eine Base64-codierte Zeichenfolge, die der Liste request_json["input_data"]["data"] angefügt wird:

import base64
import json
# Get the details for online endpoint
endpoint = ml_client.online_endpoints.get(name=online_endpoint_name)

sample_image = "./test_image.jpg"

# Define explainability (XAI) parameters
model_explainability = True
xai_parameters = {"xai_algorithm": "xrai",
                  "visualizations": True,
                  "attributions": False}

def read_image(image_path):
    with open(image_path, "rb") as f:
        return f.read()

# Create request json
request_json = {

    "input_data": {
        "columns": ["image"],
        "data": [json.dumps({"image_base64": base64.encodebytes(read_image(sample_image)).decode("utf-8"),
                             "model_explainability": model_explainability,
                             "xai_parameters": xai_parameters})],
    }
}

request_file_name = "sample_request_data.json"

with open(request_file_name, "w") as request_file:
    json.dump(request_json, request_file)

resp = ml_client.online_endpoints.invoke(
    endpoint_name=online_endpoint_name,
    deployment_name=deployment.name,
    request_file=request_file_name,
)
predictions = json.loads(resp)

Ausgabeformat (XAI)

Vorhersagen für Modellendpunkte folgen je nach Aufgabentyp einem unterschiedlichen Schema. In diesem Abschnitt werden die Ausgabedatenformate für Aufgaben für Bildklassifizierungen mit mehreren Klassen und für Bildklassifizierungen mit mehreren Beschriftungen beschrieben.

Die folgenden Schemas werden für den Fall von zwei Eingabebildern definiert.

Bildklassifizierung (binär/mehrere Klassen)

Das Ausgabeschema entspricht dem oben beschriebenen, mit der Ausnahme, dass die Schlüsselwerte visualizations und attributions enthalten sind, wenn diese Schlüssel in der Anforderung auf True festgelegt wurden.

Wenn model_explainability, visualizations, attributions in der Eingabeanforderung auf True festgelegt sind, enthält die Ausgabe visualizations und attributions. Weitere Details zu diesen Parametern finden Sie in der folgenden Tabelle. Visualisierungen und Zuordnungen werden für eine Klasse mit der höchsten Wahrscheinlichkeitsbewertung generiert.

Ausgabeschlüssel	Beschreibung
`visualizations`	Einzelnes Bild im Base64-Zeichenfolgenformat mit Typ `Optional, String`
`attributions`	Mehrdimensionales Array mit pixelweisen Zuordnungswerten im Format `[3, valid_crop_size, valid_crop_size]` `Optional, List`

[
    {
       "probs": [
          0.006,
          9.345e-05,
          0.992,
          0.003
       ],
       "labels": [
          "can",
          "carton",
          "milk_bottle",
          "water_bottle"
       ],
       "visualizations": "iVBORw0KGgoAAAAN.....",
       "attributions": [[[-4.2969e-04, -1.3090e-03,  7.7791e-04,  ...,  2.6677e-04,
                          -5.5195e-03,  1.7989e-03],
                          .
                          .
                          .
                         [-5.8236e-03, -7.9108e-04, -2.6963e-03,  ...,  2.6517e-03,
                           1.2546e-03,  6.6507e-04]]]
    }
]

Bildklassifizierung mit mehreren Beschriftungen

Der einzige Unterschied im Ausgabeschema der Klassifizierung mit mehreren Bezeichnungen im Vergleich zur Klassifizierung mit mehreren Klassen besteht darin, dass in jedem Bild mehrere Klassen vorhanden sein können, für die Erklärungen generiert werden können. visualizations ist also die Liste der Base64-Bildzeichenfolgen und attributions die Liste der Zuordnungsbewertungen für jede ausgewählte Klasse basierend auf confidence_score_threshold_multilabel (Standardwert: 0,5).

Wenn model_explainability, visualizations, attributions in der Eingabeanforderung auf True festgelegt sind, enthält die Ausgabe visualizations und attributions. Weitere Details zu diesen Parametern finden Sie in der folgenden Tabelle. Visualisierungen und Zuordnungen werden für alle Klassen generiert, deren Wahrscheinlichkeitsbewertung größer oder gleich confidence_score_threshold_multilabel ist.

Ausgabeschlüssel	Beschreibung
`visualizations`	Liste der Bilder im Base64-Zeichenfolgenformat mit Typ `Optional, String`
`attributions`	Liste der mehrdimensionalen Arrays mit pixelweisen Zuordnungsbewertungen für jede Klasse, bei der jedes mehrdimensionale Array das Format `[3, valid_crop_size, valid_crop_size]` hat. `Optional, List`

Warnung

Stellen Sie beim Generieren von Erklärungen für den Onlineendpunkt sicher, dass Sie nur wenige Klassen basierend auf der Konfidenzbewertung auswählen, um Timeoutprobleme für den Endpunkt zu vermeiden oder den Endpunkt mit dem GPU-Instanztyp zu verwenden. Informationen zum Generieren von Erklärungen für eine große Anzahl von Klassen in der Klassifizierung mit mehreren Bezeichnungen finden Sie im Batchbewertungs-Notebook (SDK v1).

[
    {
       "probs": [
          0.994,
          0.994,
          0.843,
          0.166
       ],
       "labels": [
          "can",
          "carton",
          "milk_bottle",
          "water_bottle"
       ],
       "visualizations": ["iVBORw0KGgoAAAAN.....", "iVBORw0KGgoAAAAN......", .....],
       "attributions": [
                        [[[-4.2969e-04, -1.3090e-03,  7.7791e-04,  ...,  2.6677e-04,
                           -5.5195e-03,  1.7989e-03],
                           .
                           .
                           .
                          [-5.8236e-03, -7.9108e-04, -2.6963e-03,  ...,  2.6517e-03,
                            1.2546e-03,  6.6507e-04]]],
                        .
                        .
                        .
                       ]
    }
]

Objekterkennung

Warnung

XAI wird nicht unterstützt. Daher werden nur Bewertungen zurückgegeben. Ein Bewertungsbeispiel finden Sie im Abschnitt zur Onlinebewertung.

Instanzsegmentierung

Warnung

XAI wird nicht unterstützt. Daher werden nur Bewertungen zurückgegeben. Ein Bewertungsbeispiel finden Sie im Abschnitt zur Onlinebewertung.

Hinweis

Die in diesem Artikel verwendeten Bilder stammen aus dem Dataset „Fridge Objects“ (Copyright © Microsoft Corporation) und stehen über computervision-recipes/01_training_introduction.ipynb unter der MIT-Lizenz zur Verfügung.

Freigeben über

Datenschemas zum Trainieren von Modellen für maschinelles Sehen mit automatisiertem maschinellem Lernen

Datenschema für das Training

Bildklassifizierung (binär/mehrere Klassen)

Bildklassifizierung mit mehreren Beschriftungen

Objekterkennung

Instanzsegmentierung

Datenschema für die Onlinebewertung

Eingabeformat

Ausgabeformat

Bildklassifizierung (binär/mehrere Klassen)

Bildklassifizierung mit mehreren Beschriftungen

Objekterkennung

Instanzsegmentierung

Datenformat für Onlinebewertung und Erklärbarkeit (XAI)

Unterstützte Erklärbarkeitsmethoden:

Eingabeformat (XAI)

Ausgabeformat (XAI)

Bildklassifizierung (binär/mehrere Klassen)

Bildklassifizierung mit mehreren Beschriftungen

Objekterkennung

Instanzsegmentierung

Nächste Schritte

Feedback

Zusätzliche Ressourcen