Glossar für Azure Machine Learning

Das Azure Machine Learning-Glossar ist ein kurzes Wörterbuch der Terminologie für die Machine Learning-Plattform. Zur allgemeinen Azure-Terminologie siehe auch:

Komponente

Eine Komponente für maschinelles Lernen ist ein in sich geschlossener Teil des Codes, der einen Schritt in einer Pipeline für maschinelles Lernen ausführt. Komponenten sind die wesentlichen Bausteine einer erweiterten Pipeline für maschinelles Lernen. Die Komponenten können Aufgaben wie Datenverarbeitung, Modelltraining und Modellbewertung übernehmen. Eine Komponente ist analog zu einer Funktion. Sie hat einen Namen und Parameter, erwartet eine Eingabe und gibt eine Ausgabe zurück.

Compute

Ein Computeziel ist eine zugewiesene Computeressource, auf der Sie Ihren Auftrag ausführen oder Ihren Endpunkt hosten. Maschinelles Lernen unterstützt die folgenden Arten von Datenverarbeitung:

  • Computecluster: Eine verwaltete Recheninfrastruktur, mit der Sie ganz einfach einen Cluster von CPU- oder GPU-Rechenknoten in der Cloud erstellen können.

    Hinweis

    Anstatt einen Computecluster zu erstellen, verwenden Sie serverloses Computing, um das Compute-Lifecycle-Management an Azure Machine Learning auszulagern.

  • Recheninstanz: Eine vollständig konfigurierte und verwaltete Entwicklungsumgebung in der Cloud. Sie können die Instanz als Computeressource zu Entwicklungs- und Testzwecken für Training oder Rückschlüsse nutzen. Es ist vergleichbar mit einer virtuellen Maschine in der Cloud.

  • Kubernetes-Cluster: Wird verwendet, um trainierte Modelle für maschinelles Lernen in Azure Kubernetes Service (AKS) bereitzustellen. Sie können einen AKS-Cluster aus Ihrem Arbeitsbereich für maschinelles Lernen erstellen oder einen bestehenden AKS-Cluster anhängen.

  • Gebundene Rechenleistung: Sie können Ihre eigenen Rechenressourcen an Ihren Arbeitsbereich anhängen und sie für Training und Inferenz verwenden.

Daten

Mit maschinellem Lernen können Sie mit verschiedenen Arten von Daten arbeiten:

  • URIs (ein Ort im lokalen oder Cloud-Speicher):
    • uri_folder
    • uri_file
  • Tabellen (eine tabellarische Datenabstraktion):
    • mltable
  • Primitive:
    • string
    • boolean
    • number

In den meisten Szenarien verwenden Sie URIs (uri_folder und uri_file), um einen Speicherort zu identifizieren, der leicht dem Dateisystem eines Rechenknotens in einem Auftrag zugeordnet werden kann, indem der Speicher entweder eingehängt oder auf den Knoten heruntergeladen wird.

Der Parameter mltable ist eine Abstraktion für tabellarische Daten, die für automatisiertes maschinelles Lernen (AutoML), parallele Aufträge und einige erweiterte Szenarien verwendet wird. Wenn Sie mit dem maschinellen Lernen beginnen und AutoML noch nicht verwenden, empfehlen wir Ihnen dringend, mit URIs zu beginnen.

Datenspeicher

Machine Learning-Datenspeicher bewahren die Verbindungsinformationen zu Ihrem Datenspeicher auf Azure sicher auf, sodass Sie sie nicht in Ihren Skripten codieren müssen. Sie können sich registrieren und einen Datenspeicher erstellen, um eine einfache Verbindung zu Ihrem Speicherkonto herzustellen und auf die Daten in Ihrem zugrunde liegenden Speicherdienst zuzugreifen. Die Azure Machine Learning CLI v2 und das SDK v2 unterstützen die folgenden Arten von Cloud-basierten Speicherdiensten:

  • Azure Blob Storage-Container
  • Azure Files-Freigabe
  • Azure Data Lake-Speicher
  • Azure Data Lake Storage Gen2

Environment

Umgebungen für maschinelles Lernen sind eine Kapselung der Umgebung, in der Ihre maschinelle Lernaufgabe stattfindet. Sie geben die Softwarepakete, Umgebungsvariablen und Softwareeinstellungen für Ihre Trainings- und Bewertungsskripts an. Die Umgebungen sind verwaltete und versionierte Entitäten innerhalb Ihres Machine Learning-Arbeitsbereichs. Umgebungen ermöglichen reproduzierbare, überprüfbare und übertragbare Machine Learning-Workflows für verschiedene Computeziele.

Umgebungstypen

Machine Learning unterstützt zwei Arten von Umgebungen: kuratierte und benutzerdefinierte.

Kuratierte Umgebungen werden von Machine Learning bereitgestellt und sind standardmäßig in Ihrem Arbeitsbereich verfügbar. Sie sind dazu bestimmt, so verwendet zu werden, wie sie sind. Sie enthalten Sammlungen von Python-Paketen und -Einstellungen, die Ihnen helfen, verschiedene Machine Learning-Frameworks zu starten. Diese vorab erstellten Umgebungen ermöglichen auch eine schnellere Bereitstellung. Eine vollständige Liste finden Sie unter Azure Machine Learning kuratierte Umgebungen.

In benutzerdefinierten Umgebungen sind Sie für die Einrichtung Ihrer Umgebung verantwortlich. Stellen Sie sicher, dass Sie die Pakete und alle anderen Abhängigkeiten installieren, die Ihr Trainings- oder Bewertungsskript für die Berechnung benötigt. Mit Hilfe von Machine Learning können Sie Ihre eigene Umgebung schaffen:

  • Ein Docker-Image.
  • Ein Basis-Docker-Image mit einem conda YAML, das weiter angepasst werden kann.
  • Ein Docker-Build-Kontext.

Modell

Modelle für maschinelles Lernen bestehen aus den Binärdateien, die ein Modell für maschinelles Lernen darstellen, sowie aus den entsprechenden Metadaten. Sie können Modelle aus einer lokalen oder entfernten Datei oder einem Verzeichnis erstellen. Für entfernte Standorte werden https, wasbs und azureml Standorte unterstützt. Das erstellte Modell wird im Arbeitsbereich unter dem angegebenen Namen und der Version verfolgt. Machine Learning unterstützt drei Arten von Speicherformaten für Modelle:

  • custom_model
  • mlflow_model
  • triton_model

Arbeitsbereich

Der Arbeitsbereich ist die wichtigste Ressource für maschinelles Lernen. Es bietet einen zentralen Ort für die Arbeit mit allen Artefakten, die Sie bei der Verwendung von Machine Learning erstellen. Im Arbeitsbereich wird ein Verlauf aller Aufträge gespeichert, Protokolle, Metriken, Ausgabe und eine Momentaufnahme Ihrer Skripts eingeschlossen. Der Arbeitsbereich speichert Verweise auf Ressourcen wie z. B. Datenspeicher und Compute-Instanzen. Es enthält auch alle Assets wie Modelle, Umgebungen, Komponenten und Daten-Assets.

Nächste Schritte

Was ist Azure Machine Learning?