Freigeben über


Übersicht: Bereitstellen von Modellen, Flows und Web-Apps mit Azure KI Studio

Wichtig

Einige der in diesem Artikel beschriebenen Features sind möglicherweise nur in der Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Azure KI Studio unterstützt die Bereitstellung großer Sprachmodelle (LLMs), Flows und Web-Apps. Durch die Bereitstellung eines großen Sprachmodells (Large Language Model, LLM) wird es für die Verwendung in einer Website, einer Anwendung oder anderen Produktionsumgebungen zur Verfügung gestellt. Dies umfasst in der Regel das Hosten des Modells auf einem Server oder in der Cloud und das Erstellen einer API oder einer anderen Schnittstelle für Benutzer, die mit dem Modell interagieren.

Man hört oft, dass diese Interaktion mit einem Modell als „Rückschließen“ bezeichnet wird. Rückschließen ist der Prozess, bei dem neue Eingabedaten auf ein Modell angewandt werden, um Ausgaben zu generieren. Rückschließen kann in verschiedenen Anwendungen verwendet werden. Beispielsweise kann ein Chat-Vervollständigungsmodell verwendet werden, um Wörter oder Ausdrücke, die eine Person in Echtzeit eingibt, automatisch zu vervollständigen. Ein Chatmodell kann verwendet werden, um eine Antwort auf „Können Sie eine Reiseroute für einen Tagesbesuch in Seattle erstellen?“ zu generieren. Den Möglichkeiten sind keine Grenzen gesetzt.

Bereitstellen von Modellen

Zuerst können Sie Folgendes fragen:

  • „Welche Modelle kann ich bereitstellen?“ Azure KI Studio unterstützt die Bereitstellung einiger der beliebtesten großen Sprach- und Vision-Basismodelle, die von Microsoft, Hugging Face und Meta kuratiert wurden.
  • „Wie wähle ich das richtige Modell aus?“ Azure KI Studio bietet einen Modellkatalog, mit dem Sie Modelle basierend auf Ihrem Anwendungsfall durchsuchen und filtern können. Sie können ein Modell auch auf einem Beispiel-Playground testen, bevor Sie es in Ihrem Projekt bereitstellen.
  • „Von wo aus kann ich in Azure KI Studio ein Modell bereitstellen?“ Sie können ein Modell aus dem Modellkatalog oder über die Bereitstellungsseite Ihres Projekts bereitstellen.

Azure KI Studio vereinfacht Bereitstellungen. Eine einfache Auswahl oder eine Codezeile stellt ein Modell bereit und generiert einen API-Endpunkt für Ihre Anwendungen, die verwendet werden sollen.

Azure OpenAI-Modelle

Mit Azure OpenAI haben Sie Zugriff auf die neuesten OpenAI-Modelle mit den Unternehmensfunktionen von Azure. Erfahren Sie mehr darüber, wie Sie OpenAI-Modelle in KI Studio bereitstellen.

Offene Modelle

Der Modellkatalog bietet Zugriff auf eine große Auswahl an Modellen für verschiedene Modalitäten. Bestimmte Modelle aus dem Modellkatalog können auf nutzungsbasierter Basis bereitgestellt werden. So können Sie sie als API nutzen, ohne sie in Ihrem Abonnement zu hosten, und gleichzeitig die für Unternehmen erforderliche Sicherheit und Compliance gewährleisten.

Bereitstellen von Modellen mit Model-as-a-Service (MaaS)

Für diese Bereitstellungsoption ist kein Kontingent aus Ihrem Abonnement erforderlich. Sie verwenden eine Bereitstellung als serverlose API, und jedes Token wird nutzungsbasiert in Rechnung gestellt. Erfahren Sie, wie Sie Llama 2 Modellfamilie mit Model-as-a-Service bereitstellen und nutzen.

Bereitstellen von Modellen mit gehosteter verwalteter Infrastruktur

Sie können offene Modelle auch in Ihrem eigenen Abonnement mit verwalteter Infrastruktur, VMs und einer bestimmten Anzahl von Instanzen für die Kapazitätsverwaltung hosten. Derzeit bieten wir eine breite Palette von Modellen von Azure KI, HuggingFace und Nvidia an. Erfahren Sie mehr darüber, wie Sie offene Modelle auf Echtzeit-Endpunkten einsetzen können.

Abrechnung für die Bereitstellung und Ableitung von LLMs in Azure KI Studio

In der folgenden Tabelle wird beschrieben, wie Sie die Bereitstellung und Ableitung von LLMs in Azure KI Studio in Rechnung stellen. Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachung der Kosten für Modelle, die im gesamten Azure Marketplace angeboten werden.

Anwendungsfall Azure OpenAI-Modelle Modelle, die als serverlose APIs bereitgestellt werden (nutzungsbasierte Bezahlung) Mit verwalteten Computeressourcen bereitgestellte Modelle
Bereitstellen eines Modells aus dem Modellkatalog in Ihrem Projekt Nein, die Bereitstellung eines Azure OpenAI-Modells für Ihr Projekt wird Ihnen nicht in Rechnung gestellt. Ja, Ihre Abrechnung erfolgt pro Infrastruktur des Endpunkts1 Ja, die Infrastruktur, die das Modell hostet, wird in Rechnung gestellt2
Testen des Chatmodus auf dem Playground nach der Bereitstellung eines Modells für Ihr Projekt Ja, die Abrechnung erfolgt auf der Grundlage Ihrer Token-Nutzung Ja, die Abrechnung erfolgt auf der Grundlage Ihrer Token-Nutzung Keine.
Testen eines Modells auf einem Beispiel-Playground im Modellkatalog (falls zutreffend) Nicht zutreffend Keine. Keine.
Testen eines Modells im Playground unter Ihrem Projekt (falls zutreffend) oder auf der Registerkarte „Test“ auf der Seite mit den Bereitstellungsdetails unter Ihrem Projekt. Ja, die Abrechnung erfolgt auf der Grundlage Ihrer Token-Nutzung Ja, die Abrechnung erfolgt auf der Grundlage Ihrer Token-Nutzung Keine.

1 Eine minimale Endpunktinfrastruktur wird pro Minute abgerechnet. Beim nutzungsbasierten Modell wird Ihnen die Infrastruktur, die das Modell selbst hostet, nicht in Rechnung gestellt. Nachdem ein Endpunkt gelöscht wurde, fallen keine weiteren Gebühren dafür an.

2 Die Abrechnung erfolgt auf Minutenbasis in Abhängigkeit von der SKU und der Anzahl der Instanzen, die seit der Erstellung in der Bereitstellung verwendet wurden. Nachdem ein Endpunkt gelöscht wurde, fallen keine weiteren Gebühren dafür an.

Bereitstellen von Flows

Was ist ein Flow und warum möchten Sie ihn bereitstellen? Ein Flow ist eine Reihe von Tools, die zum Erstellen einer generativen KI-Anwendung verwendet werden können. Die Bereitstellung eines Flows unterscheidet sich von der Bereitstellung eines Modells, in dem Sie den Flow mit Ihren eigenen Daten und anderen Komponenten anpassen können, z. B. Einbettungen, Vektor-DB-Suche. und benutzerdefinierte Verbindungen. Eine Anleitung finden Sie unter Bereitstellen von Flows mit Azure KI Studio.

Sie können beispielsweise einen Chatbot erstellen, der Ihre Daten verwendet, um fundierte und geerdete Antworten auf Benutzerabfragen zu generieren. Wenn Sie Ihre Daten im Playground hinzufügen, wird automatisch ein Prompt Flow für Sie generiert. Sie können den Flow wie folgt bereitstellen oder ihn mit Ihren eigenen Daten und anderen Komponenten weiter anpassen. In Azure KI Studio können Sie auch ihren eigenen Flow von Grund auf neu erstellen.

Unabhängig davon, wie Sie einen Flow in Azure KI Studio erstellen möchten, können Sie ihn schnell bereitstellen und einen API-Endpunkt für Ihre Anwendungen generieren, die sie nutzen können.

Bereitstellen von Web-Apps

Das Modell oder Flow, das Sie bereitstellen, kann in einer Webanwendung verwendet werden, die in Azure gehostet wird. Azure KI Studio bietet eine schnelle Möglichkeit zum Bereitstellen einer Web-App. Weitere Informationen finden Sie auf unter Azure KI Enterprise Chat-Tutorial.

Planen der KI-Sicherheit für ein bereitgestelltes Modell

Für Azure OpenAI-Modelle wie GPT-4 stellt Azure KI Studio während der Bereitstellung KI-Sicherheitsfilter bereit, um die verantwortungsvolle Nutzung von KI sicherzustellen. Der KI-Inhaltssicherheitsfilter ermöglicht die Moderation schädlicher und sensibler Inhalte, um die Sicherheit von KI-verbesserten Anwendungen zu fördern. Zusätzlich zum KI-Sicherheitsfilter bietet Azure KI Studio Modellüberwachung für bereitgestellte Modelle. Die Modellüberwachung für LLMs verwendet die neuesten GPT-Sprachmodelle, um zu überwachen und zu warnen, wenn die Ausgaben des Modells schlecht gegenüber den festgelegten Schwellenwerten für die Sicherheit und Qualität der Generation funktionieren. Sie können zum Beispiel einen Monitor konfigurieren, um zu bewerten, wie gut die vom Modell generierten Antworten mit den Informationen aus der Eingabequelle übereinstimmen („Quellenübereinstimmung“) und wie gut sie mit Ground-Truth-Aussagen oder -Dokumenten übereinstimmen („Ähnlichkeit“).

Optimieren der Leistung eines bereitgestellten Modells

Die Optimierung von LLMs erfordert eine sorgfältige Prüfung mehrerer Faktoren, einschließlich betriebstechnischer Metriken (z. B. Latenz), Qualitätsmetriken (z. B. Genauigkeit) und Kosten. Es ist wichtig, mit erfahrenen Datenwissenschaftlern und Ingenieuren zusammenzuarbeiten, um sicherzustellen, dass Ihr Modell für Ihren spezifischen Anwendungsfall optimiert ist.

Nächste Schritte