Freigeben über


Bereitstellen von Echtzeitvorhersagen mit ML-Modellendpunkten (Vorschau)

Von Bedeutung

Dieses Feature befindet sich in der Vorschauphase.

Mit Microsoft Fabric können Sie Echtzeitvorhersagen von ML-Modellen mit sicheren, skalierbaren und einfach zu verwendenden Onlineendpunkten bereitstellen. Diese Endpunkte sind als integrierte Eigenschaften der meisten Fabric-Modelle verfügbar und erfordern keine Einrichtung, um vollständig verwaltete Echtzeitbereitstellungen zu starten.

Mit einer öffentlich zugänglichen REST-API können Sie Modellendpunkte aktivieren, konfigurieren und abfragen. Sie können auch direkt über die Fabric-Schnittstelle beginnen, indem Sie mithilfe einer Low-Code-Erfahrung Modellendpunkte aktivieren und Prognosen in der Vorschau sofort anzeigen.

Screenshot eines ML-Modells in Fabric mit einer integrierten Endpunkteigenschaft zur Bereitstellung von Echtzeitvorhersagen.

Voraussetzungen

Einschränkungen

  • Endpunkte sind derzeit für einen begrenzten Satz von ML-Modellflavors verfügbar, einschließlich Keras, LightGBM, Sklearn und XGBoost.
  • Endpunkte sind derzeit nicht verfügbar für Modelle mit tensorbasierten Strukturen oder ohne Strukturen.

Erste Schritte mit Modellendpunkten

ML-Modelle in Fabric sind mit Onlineendpunkten vorkonfiguriert, die verwendet werden können, um Echtzeitvorhersagen zu erfüllen. Jede registrierte Modellversion verfügt über eine dedizierte Endpunkt-URL, die unter der Überschrift "Endpunktdetails" in der Fabric-Schnittstelle zu finden ist. Diese URL endet mit einem Unterpfad, /versions/1/scoreder diese bestimmte Version angibt (z. B. ).

Screenshot der Eigenschaften eines ML-Modellendpunkts, der verwendet werden kann, um Echtzeitvorhersagen zu erfüllen.

Modellendpunkte weisen die folgenden Eigenschaften auf:

Eigentum Beschreibung Vorgabe
Standardversion Diese Eigenschaft (Yes oder No) gibt an, ob die Version als Standard für die Bereitstellung realer Vorhersagen festgelegt ist. Sie können die Standardversion in den Einstellungen des Modells anpassen. No
Status Diese Eigenschaft gibt an, ob der Endpunkt bereit ist, Vorhersagen zu bedienen. Der Status kann sein Inactive, , Activating, Active, oder DeactivatingFailed. Nur aktive Endpunkte können Vorhersagen bereitstellen. Inactive
Automatischer Schlafmodus Diese Eigenschaft (On oder Off) gibt an, ob der Endpunkt, sobald er aktiv ist, die Kapazitätsauslastung auf Null verkleinern sollte, wenn kein Verkehr vorhanden ist. Wenn der automatische Energiesparmodus aktiviert ist, wechselt der Endpunkt nach fünf Minuten ohne eingehende Anforderungen in einen Leerlaufzustand. Der erste Aufruf zum Aufwecken eines Endpunkts im Leerlauf beinhaltet eine kurze Verzögerung. On

Aktivieren von Modellendpunkten

Sie können Modellendpunkte direkt über die Fabric-Schnittstelle aktivieren. Navigieren Sie zu der Version, die Sie in Echtzeit vorhersagen möchten, und wählen Sie im Menüband "Versionsendpunkt aktivieren" aus.

Screenshot, der zeigt, wie ein ML-Modellendpunkt über die Fabric-Schnittstelle aktiviert wird.

Eine Toast-Nachricht zeigt an, dass Fabric Ihren Endpunkt für die Bereitstellung von Vorhersagen vorbereitet, und der Status des Endpunkts wechselt zu "Aktivieren". Im Hintergrund richtet Fabric die zugrunde liegende Container-Infrastruktur ein, um Ihr Modell zu betreiben. Innerhalb weniger Minuten ist Ihr Endpunkt bereit, Vorhersagen bereitzustellen.

Screenshot eines ML-Modellendpunkts, der jetzt aktiviert wird.

Jeder Endpunkt hat einen Status, der angibt, ob er bereit ist, Echtzeitvorhersagen zu bedienen:

Status Beschreibung
Inactive Der Endpunkt ist nicht aktiviert, um Echtzeitvorhersagen zu erfüllen, und es verbraucht keine Fabric-Kapazität.
Activating Der Endpunkt wird für Echtzeitvorhersagen konfiguriert. Hinter den Kulissen richtet Fabric die zugrunde liegende Containerinfrastruktur ein, um das Modell zu hosten. Innerhalb weniger Minuten ist der Endpunkt aktiv.
Active Der Endpunkt ist bereit, Echtzeitvorhersagen zu bedienen. Hinter den Kulissen verwaltet Fabric die zugrunde liegende Infrastruktur und skaliert die Ressourcennutzung basierend auf eingehendem Datenverkehr. Ein höherer Datenverkehr führt zu einer höheren Auslastung der Fabric-Kapazität.
Deactivating Der Endpunkt wird deaktiviert, sodass er keine Echtzeitvorhersagen mehr liefert oder Fabric-Kapazität verbraucht. Fabric demontiert hinter den Kulissen die zugrunde liegende Containerinfrastruktur.

Hinweis

ML-Modelle können aktive Endpunkte für bis zu fünf Versionen gleichzeitig unterstützen. Um Vorhersagen aus einer sechsten Version zu erfüllen, müssen Sie zuerst einen aktiven Endpunkt deaktivieren.

Verwalten von Modellendpunkten

Um einen Überblick über die aktiven Endpunkte Ihres Modells zu erhalten, wählen Sie im Menüband auf der Benutzeroberfläche "Endpunkte verwalten" aus. Jedes Modell verfügt über einen anpassbaren Standardendpunkt, der Vorhersagen aus einer von Ihnen ausgewählten Version liefert. Sie können die Standardversion mithilfe der Dropdownauswahl im Einstellungsbereich aktualisieren.

Screenshot der standardmäßigen ML-Modellendpunkt-URL, die Sie für die Bereitstellung von Vorhersagen aus einer bestimmten Version konfigurieren können.

Von Bedeutung

Stellen Sie sicher, dass Sie die Standardeigenschaft auf eine aktive Version festlegen, wenn Sie sie verwenden möchten. Wenn die Standardeigenschaft nicht festgelegt oder auf eine inaktive Version festgelegt ist, schlagen Aufrufe am Standardendpunkt fehl.

Alle Versionen mit aktiven Endpunkten werden unter den Endpunkteinstellungen des Modells aufgeführt. Sie können die Eigenschaft für den automatischen Standbymodus jedes Endpunkts ändern, indem Sie den Schalter auf "Ein" oder "Aus" umschalten.

Screenshot, der zeigt, wie die Eigenschaft für den automatischen Schlafmodus an ML-Modellendpunkten geändert wird.

Tipp

Aktive Endpunkte mit aktiviertem automatischen Energiesparmodus geben nach fünf Minuten ohne Datenverkehr in einen Leerlaufzustand ein, und der erste Aufruf, um sie aufzuwachen, erfordert eine kurze Verzögerung. Sie können diese Eigenschaft für Endpunkte in der Produktion deaktivieren.

Abfragemodellendpunkte für Echtzeitvorhersagen

Modellendpunkte sind für sofortige Tests in einer Low-Code-Umgebung in Fabric verfügbar. Navigieren Sie zu einer Version mit einem aktiven Endpunkt, und wählen Sie im Menüband auf der Benutzeroberfläche "Vorschauvorhersagen" aus. Sie können Beispielanforderungen an den Endpunkt senden und Beispielvorhersagen in Echtzeit mithilfe von Formularfeldern abrufen, die der Eingabesignatur des Modells entsprechen.

Screenshot der integrierten Vorschauumgebung zum Abrufen von Beispielvorhersagen von einem aktiven ML-Modellendpunkt.

Um die Formularfelder mit Zufallsbeispielwerten aufzufüllen, wählen Sie "AutoAusfüllen" aus. Sie können weitere Formularwertesätze hinzufügen, um den Endpunkt mit mehreren Eingaben zu testen. Wählen Sie "Vorhersagen abrufen" aus, um den Endpunkt an Ihre Beispielanforderung zu senden.

Screenshot der formularbasierten Ansicht zum Senden von Beispielanforderungen an einen aktiven ML-Modellendpunkt.

Wenn Sie Beispielanforderungen lieber als JSON-Nutzlast formatieren möchten, verwenden Sie die Dropdownauswahl, um die Ansicht zu ändern.

Screenshot der JSON-basierten Ansicht zum Senden von Beispielanforderungen an einen aktiven ML-Modellendpunkt.

Deaktivieren von Modellendpunkten

Sie können Modellendpunkte direkt über die Fabric-Schnittstelle deaktivieren. Navigieren Sie zu einer Version, die Sie nicht mehr in Echtzeit vorhersagen müssen, und wählen Sie im Menüband auf der Benutzeroberfläche "Versionsendpunkt deaktivieren" aus.

Screenshot, der zeigt, wie ein ML-Modellendpunkt von der Fabric-Schnittstelle deaktiviert wird.

Eine Toast-Nachricht zeigt an, dass Fabric Ihre aktive Bereitstellung deaktiviert, und der Status des Endpunkts ändert sich zu "Deaktiviert". Der Endpunkt kann keine Echtzeitvorhersagen mehr bereitstellen, es sei denn, Sie reaktivieren ihn.

Screenshot eines ML-Modellendpunkts, der jetzt deaktiviert wird.

Sie können Endpunkte für mehrere Versionen gleichzeitig im Einstellungsbereich des Modells deaktivieren. Wählen Sie im Menüband auf der Benutzeroberfläche "Endpunkte verwalten" aus, und wählen Sie einen oder mehrere aktive Endpunkte aus, die deaktiviert werden sollen.

Screenshot, der zeigt, wie mehrere ML-Modellendpunkte gleichzeitig über die Fabric-Schnittstelle deaktiviert werden.

Verbrauchsrate

Das Hosten von aktiven Modellendpunkten nutzt Fabric Capacity Units (CUs). Endpunkte werden auf Computeknoten ausgeführt und können basierend auf eingehendem Datenverkehr automatisch bis zu drei Knoten skalieren. Die Abrechnung wird pro Knoten berechnet, während ein Endpunkt aktiv ist. Die folgende Tabelle zeigt den CU-Verbrauch für einen aktiven Machine Learning-Modellendpunkt.

Vorgang Betriebsmaßeinheit Verbrauchsrate
Modellendpunkt 1 Modellendpunkt (Version) pro Sekunde pro Knoten 5 CU-Sekunden

Die folgende Tabelle zeigt Beispielszenarien und deren entsprechende Verbrauchssätze und Stündliche Kosten.

Szenario Beschreibung Verbrauchsrate Stündliche Kosten
Modelle mit inaktiven Endpunkten Diese Modelle haben keine aktiven Versionsendpunkte und keine zugeordnete Ressourcenauslastung. Sie beinhalten keine zusätzlichen Kosten. 0 CU-Sekunden 0 CU-Stunde
Modelle mit aktiven, aber leerlaufaktiven Endpunkten Diese Modelle verfügen über einen oder mehrere aktive Versionsendpunkte, aber ohne regulären Datenverkehr haben alle auf Null skaliert, wodurch die Kosten automatisch reduziert werden. 5 CU-Sekunden 0.42 CU Stunden
Modelle mit 1 aktivem Endpunkt und konstanter niedriger Datenverkehr Diese Modelle verfügen nur über einen aktiven Versionsendpunkt, der Vorhersagen angibt, aber ohne genügend Datenverkehr, um eine vollständige Skalierung auszulösen. Ein Knoten kann den gesamten Datenverkehr bedienen. Andere Versionsendpunkte sind möglicherweise inaktiv oder im Leerlauf. 5 CU-Sekunden 5 CU Stunden
Modelle mit 1 aktivem Endpunkt und konstanter hoher Datenverkehr Diese Modelle verfügen nur über einen aktiven Versionsendpunkt, der Vorhersagen abgibt, mit genügend Datenverkehr, um eine vollständige Skalierung auszulösen. Andere Versionsendpunkte sind möglicherweise inaktiv oder im Leerlauf. 15 CU-Sekunden 15 KU-Stunden
Modelle mit 5 aktiven Endpunkten und konstanter hoher Datenverkehr Diese Modelle verfügen über 5 aktive Versionsendpunkte (das aktuelle Limit), die Vorhersagen verarbeiten, wobei jeder mit genügend Datenverkehr zum Auslösen eines vollständigen Scaleouts verfügt. 75 CU-Sekunden 75 CU Stunden

Die Fabric-Kapazitätsmetriken-App zeigt die Gesamtkapazitätsauslastung für Modellendpunktvorgänge unter dem Namen "Modellendpunkt" an. Darüber hinaus können Benutzer eine Zusammenfassung ihrer Abrechnungsgebühren für die Modellendpunktnutzung unter dem Fakturierungselement "ML Model Endpoint Capacity Usage CU" anzeigen.

Der Modellendpunktvorgang wird als Hintergrundvorgänge klassifiziert.

Verbrauchsraten können sich jederzeit ändern. Microsoft verwendet angemessene Anstrengungen, um Benachrichtigungen per E-Mail oder über produktinterne Benachrichtigungen bereitzustellen. Änderungen gelten am Datum, das in den Microsoft-Versionshinweisen oder im Microsoft Fabric-Blog angegeben ist. Wenn änderungen am Modellendpunkt in Fabric Consumption Rate die für die Verwendung erforderlichen Kapazitätseinheiten (CU) wesentlich erhöhen, können Kunden die für die ausgewählte Zahlungsmethode verfügbaren Stornierungsoptionen verwenden.