Freigeben über


Bereitstellen von Jamba-Familienmodellen von AI21 mit Azure KI Studio

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

In diesem Artikel wird erläutert, wie Sie Azure KI Studio zum Bereitstellen von Jamba-Familienmodellen von AI21 als serverlose API mit nutzungsbasierter Abrechnung verwenden.

Jamba-Familienmodelle sind auf Mamba basierende, produktionstaugliche Large Language Modelle (LLM) von AI21, die die hybride Mamba-Transformer-Architektur von AI21 nutzen. Es ist eine anweisungsoptimierte Version des hybriden strukturierten Zustandsraummodells (State Space Model, SSM) des Jamba-Transformer-Modells von AI21. Im Hinblick auf Qualität und Leistung sind die Jamba-Familienmodelle auf die zuverlässige kommerzielle Nutzung ausgerichtet.

Auf dem Blog von AI21 und dem Blog Microsoft Tech Community finden Sie unsere Ankündigungen zur Verfügbarkeit von Jamba-Familienmodellen von AI21 im Azure KI-Modellkatalog.

Wichtig

Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.

Bereitstellen der Jamba-Familienmodelle als serverlose API

Bestimmte Modelle aus dem Modellkatalog können als serverlose API mit nutzungsbasierter Abrechnung bereitgestellt werden. So können Sie sie als API nutzen, ohne sie in Ihrem Abonnement zu hosten, und gleichzeitig die für Unternehmen erforderliche Sicherheit und Compliance gewährleisten. Für diese Bereitstellungsoption ist kein Kontingent aus Ihrem Abonnement erforderlich.

Das AI21-Jamba 1.5 Large-Modell, das als serverlose API mit nutzungsbasierter Abrechnung bereitgestellt wird, wird von AI21 über den Microsoft Azure Marketplace angeboten. AI21 kann die Nutzungsbedingungen und Preise dieses Modells jederzeit ändern oder aktualisieren.

Für den Einstieg in die serverlose Bereitstellung von Jamba 1.5 Large sollten Sie sich mit unseren Integrationen mit LangChain, LiteLLM, OpenAI und der Azure-API vertraut machen.

Voraussetzungen

  • Ein Azure-Abonnement mit einer gültigen Zahlungsmethode. Kostenlose Versionen oder Testversionen von Azure-Abonnements funktionieren nicht. Wenn Sie noch kein Azure-Abonnement haben, erstellen Sie zunächst ein kostenpflichtiges Azure-Konto.

  • KI Studio-Hub. Das Angebot für die Modellimplementierung als serverlose API für Jamba-Familienmodelle ist nur mit Hubs verfügbar, die in den folgenden Regionen erstellt wurden:

    • East US
    • USA (Ost) 2
    • USA Nord Mitte
    • USA Süd Mitte
    • USA (Westen)
    • USA, Westen 3
    • Schweden, Mitte

    Eine Liste der Regionen, die für jedes der Modelle verfügbar sind, die Bereitstellungen mit serverlosen API-Endpunkten unterstützen, finden Sie unter Verfügbarkeit von Regionen für Modelle in serverlosen API-Endpunkten.

  • Ein Azure KI Studio-Projekt.

  • Die rollenbasierten Zugriffssteuerungen in Azure (Azure RBAC) werden verwendet, um Zugriff auf Vorgänge in Azure KI Studio zuzuweisen. Um die Schritte in diesem Artikel auszuführen, muss Ihrem Benutzerkonto die Rolle Besitzer oder Mitwirkender für das Azure-Abonnement zugewiesen werden. Alternativ kann Ihrem Konto eine benutzerdefinierte Rolle zugewiesen werden, die über die folgenden Berechtigungen verfügt:

    • Im Azure-Abonnement – zum Abonnieren des Azure Marketplace-Angebots für das KI Studio-Projekt, einmal für jedes Projekt, pro Angebot:

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • Für die Ressourcengruppe: Zum Erstellen und Verwenden der SaaS-Ressource:

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • Im KI Studio-Projekt – zum Bereitstellen von Endpunkten (die Rolle „Azure KI-Entwickler“ enthält diese Berechtigungen bereits):

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    Weitere Informationen zu Berechtigungen finden Sie unter Rollenbasierte Zugriffssteuerung in Azure KI Studio.

Erstellen einer neuen Bereitstellung

Diese Schritte veranschaulichen die Bereitstellung von AI21 Jamba 1.5 Large- oder AI21 Jamba 1.5 Mini-Modellen. So erstellen Sie eine Bereitstellung

  1. Melden Sie sich beim Azure KI Studio an.

  2. Wählen Sie Modellkatalog auf der linken Randleiste aus.

  3. Suchen Sie nach einem AI21-Modell wie AI21 Jamba 1.5 Large, AI21 Jamba 1.5 Mini oder AI21 Jamba Instruct, und wählen Sie eines aus, um die Seite „Details“ zu öffnen.

  4. Klicken Sie auf Bereitstellen, um das Fenster für die Bereitstellung als serverlose API für das Modell zu öffnen.

  5. Alternativ können Sie eine Bereitstellung initiieren, indem Sie von Ihrem Projekt in KI Studio aus starten.

    1. Wählen Sie auf der linken Randleiste des Projekts Komponenten>Bereitstellungen aus.

    2. Klicken Sie auf + Bereitstellung erstellen.

    3. Suchen Sie nach einem AI21-Modell wie AI21 Jamba 1.5 Large, AI21 Jamba 1.5 Mini oder AI21 Jamba Instruct, und wählen Sie eines aus, um die Seite „Details“ des Modells zu öffnen.

    4. Klicken Sie auf Bestätigen, um das Fenster für die Bereitstellung als serverlose API für das Modell zu öffnen.

  6. Wählen Sie das Projekt, in dem Sie Ihr Modell bereitstellen möchten. Um die Jamba-Familienmodelle von AI21 bereitzustellen, muss sich Ihr Projekt in einer der Regionen befinden, die im Abschnitt Voraussetzungen aufgeführt sind.

  7. Klicken Sie im Bereitstellungs-Assistenten auf den Link für die Seite mit den Azure Marketplace-Nutzungsbedingungen, um mehr über die Nutzungsbedingungen zu erfahren.

  8. Wählen Sie die Registerkarte Preise und Nutzungsbedingungen aus, um mehr über die Preise für das ausgewählte Modell zu erfahren.

  9. Wählen Sie die Schaltfläche Abonnieren und Bereitstellen aus. Wenn Sie das Modell zum ersten Mal im Projekt bereitstellen, müssen Sie Ihr Projekt für das jeweilige Angebot abonnieren. Dieser Schritt erfordert, dass Ihr Konto über die Azure-Abonnementberechtigungen und Ressourcengruppenberechtigungen verfügt, die in den Voraussetzungen aufgeführt sind. Jedes Projekt hat sein eigenes Abonnement für das jeweilige Azure Marketplace-Angebot des Modells, mit dem Sie die Ausgaben kontrollieren und überwachen können. Derzeit ist nur eine Bereitstellung für jedes Modell innerhalb eines Projekts möglich.

  10. Sobald Sie das Projekt für ein bestimmtes Azure Marketplace-Angebot abonniert haben, müssen Sie sich für nachfolgende Bereitstellungen desselben Angebots im selben Projekt nicht erneut anmelden. Wenn dieses Szenario für Sie gilt, wird die Option Weiter zur Bereitstellung zum Auswählen angezeigt.

  11. Geben Sie der Bereitstellung einen Namen. Dieser Name wird Teil der Bereitstellungs-API-URL. Diese URL muss in jeder Azure-Region eindeutig sein.

  12. Klicken Sie auf Bereitstellen. Warten Sie, bis die Bereitstellung fertig ist und Sie auf die Seite Bereitstellungen weitergeleitet werden.

  13. Navigieren Sie zurück zur Seite „Bereitstellungen“, wählen Sie die Bereitstellung aus, und notieren Sie sich die Ziel-URL und den geheimen Schlüssel des Endpunkts. Weitere Informationen zur Verwendung der APIs finden Sie im Abschnitt Referenz.

  14. Sie können die Details, URL und Zugriffsschlüssel für den Endpunkt jederzeit abrufen, indem Sie zu Ihrer Seite Projektübersicht navigieren. Wählen Sie dann auf der linken Randleiste des Projekts Komponenten>Bereitstellungen aus.

Informationen zur Abrechnung der Jamba-Familienmodelle von AI21, die als serverlose API mit nutzungs- und tokenbasierter Bezahlung bereitgestellt werden, finden Sie unter Überlegungen zu Kosten und Kontingenten für die Jamba-Instruct-Bereitstellung als serverlose API.

Verbrauchen der Jamba-Familienmodelle als serverlose API

Sie können Jamba-Familienmodelle wie folgt nutzen:

  1. Navigieren Sie auf der Seite Projektübersicht zur linken Randleiste, und wählen Sie Komponenten>Bereitstellungen aus.

  2. Suchen Sie die von Ihnen erstellte Bereitstellung, und wählen Sie sie aus.

  3. Kopieren Sie die Ziel-URL und den Schlüsselwert.

  4. Senden Sie eine API-Anforderung.

Weitere Informationen zur Verwendung der APIs finden Sie im Abschnitt Referenz.

Referenz für Jamba-Familienmodelle, die als serverlose API bereitgestellt werden

Jamba-Familienmodelle akzeptieren die beiden folgenden APIs:

Azure KI-Modellrückschluss-API

Das Schema der Azure KI-Modellrückschluss-API finden Sie im Artikel Referenz zu Chatvervollständigungen. Außerdem können Sie vom Endpunkt selbst eine OpenAPI-Spezifikation abrufen.

Einteilige und mehrteilige Chats haben dasselbe Anforderungs- und Antwortformat, mit dem Unterschied, dass bei der Beantwortung von Fragen (einteilig) nur eine einzelne Benutzernachricht in der Anforderung enthalten ist, während Sie für mehrteilige Chats den gesamten Chatnachrichtenverlauf in jeder Anforderung mitsenden müssen.

In einem mehrteiligen Chat weist der Nachrichtenthread die folgenden Attribute auf:

  • Enthält alle Nachrichten des Benutzers und des Modells, sortiert von der ältesten bis zur neuesten
  • Nachrichten der Rollen user und assistant folgen abwechselnd aufeinander.
  • Der Nachrichtenthread beginnt optional mit einer Systemnachricht, um Kontext bereitzustellen.

Der folgende Pseudocode ist ein Beispiel für den Nachrichtenstapel des vierten Aufrufs in einer Chatanfrage, der eine anfängliche Systemnachricht enthält.

[
    {"role": "system", "message": "Some contextual information here"},
    {"role": "user", "message": "User message 1"},
    {"role": "assistant", "message": "System response 1"},
    {"role": "user", "message": "User message 2"},
    {"role": "assistant"; "message": "System response 2"},
    {"role": "user", "message": "User message 3"},
    {"role": "assistant", "message": "System response 3"},
    {"role": "user", "message": "User message 4"}
]

Azure-Client von AI21

Verwenden Sie die Methode POST, um die Anforderung an die /v1/chat/completions-Route zu senden:

Anforderung

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Anforderungsschema

Die Nutzlast ist eine JSON-formatierte Zeichenfolge mit den folgenden Parametern:

Schlüssel type Erforderlich/Standard Zulässige Werte Beschreibung
model string J Muss jamba-1.5-large, jamba-1.5-mini, oder jamba-instruct sein.
messages list[object] Y Eine Liste von Objekten, eine pro Nachricht, von der ältesten bis zur neuesten. Die älteste Nachricht kann die system-Rolle haben. Alle späteren Nachrichten müssen abwechselnd die Rollen „user“ und „assistent“ aufweisen. Weiter unten finden Sie die Definition des Nachrichtenobjekts.
max_tokens integer N
4096
0–4096 Die maximale Anzahl von Token, die für jede generierte Antwortnachricht zulässig sind. In der Regel lässt sich die Ausgabelänge am besten begrenzen, indem eine Längenbeschränkung in der Systemaufforderung bereitgestellt wird (z. B. „Beschränken Sie Ihre Antworten auf drei Sätze.“).
temperature float N
1
0.0–2.0 Wie viel Variation in jeder Antwort möglich sein soll. Wird dieser Wert auf 0 festgelegt, wird auf dieselbe Frage jedes Mal garantiert dieselbe Antwort gegeben. Ein höherer Wert erlaubt mehr Variation. Ändert die Verteilung, aus der Token gesampelt werden. Wir empfehlen, dies oder top_p zu ändern, aber nicht beides.
top_p float N
1
0 <Wert<=1.0 Beschränkt den Pool der nächsten Token in jedem Schritt auf das obere N-Perzentil möglicher Token, wobei „1.0“ für den Pool aller möglichen Token steht und „0.01“ für den Pool, der nur die wahrscheinlichsten nächsten Token enthält.
stop string ODER list[string] N
"" Eine Zeichenfolge oder eine Liste von Zeichenfolgen, die das Wort oder die Wörter enthalten, bei dem bzw. denen die API das Generieren von Ausgabe beenden soll. Neue Zeilen sind als "\n" zulässig. Der zurückgegebene Text wird die Beendigungssequenz nicht enthalten.
n integer N
1
1–16 Wie viele Antworten für jeden Prompt generiert werden sollen. Mit Playground von Azure KI Studio gilt n=1 bei der Arbeit an einem Playground mit mehreren Antworten.
stream boolean N
False
True ODER False Ob Streaming aktiviert werden soll. Bei TRUE werden die Ergebnisse tokenweise zurückgegeben. Bei TRUE muss n auf 1 festgelegt sein. Diese Festlegung erfolgt automatisch.
tools array[tool] N "" Eine Liste der tools, die das Modell aufrufen kann. Derzeit werden nur Funktionen als Tool unterstützt. Verwenden Sie diesen Parameter, um eine Liste der Funktionen anzugeben, für die das Modell JSON-Eingaben generieren kann. Es werden maximal 128 Funktionen unterstützt.
response_format object N
null
"" Wenn Sie ihn auf { "type": "json_object" } festlegen, wird der JSON-Modus aktiviert, der sicherstellt, dass die vom Modells generierte Meldung gültiger JSON-Code ist.
documents array[document] N "" Eine Liste relevanter documents, auf die das Modell seine Antworten stützen kann, wenn der Benutzer dies im Prompt ausdrücklich verlangt. Dient im Wesentlichen als Erweiterung des Prompts und bietet die Möglichkeit, Metadaten hinzuzufügen. jedes Dokument ist ein Wörterbuch.

Das messages-Objekt weist die folgenden Felder auf:

  • role: [Zeichenfolge, erforderlich] Der Autor oder Zweck der Nachricht. Einer der folgenden Werte:
    • user: Vom Benutzer bereitgestellte Eingabe. Alle hier angegebenen Anweisungen, die mit den Anweisungen im system-Prompt in Konflikt stehen, haben Vorrang vor den Anweisungen des system-Prompts.
    • assistant: Eine Antwort, die vom Modell generiert wurde
    • system: Anfängliche Anweisungen als allgemeine Leitlinie zu Ton und Stil der generierten Nachricht. Eine anfängliche Systemnachricht ist optional, wird jedoch empfohlen, um eine Leitlinie zum Ton des Chats bereitzustellen. Beispiel: „Sie sind ein hilfreicher Chatbot mit Fachwissen in Geowissenschaften und einem charmanten französischen Akzent.“
  • content: [Zeichenfolge, erforderlich] Der Inhalt der Nachricht.

Das tool-Objekt weist die folgenden Felder auf:

  • type (erforderlich; String) – Der Typ des Tools. Zurzeit wird nur „function“ unterstützt.
  • function (erforderlich; Objekt) – Die Funktionsdetails.
    • name (erforderlich; String) – Der Name der Funktion, die aufgerufen werden soll.
    • description (optional; String) – Eine Beschreibung der Funktion.
    • parameters (optional; Objekt) – Die von den Funktionen akzeptierten Parameter beschrieben als JSON-Schemaobjekt.

Das document-Objekt weist die folgenden Felder auf:

  • id (optional; String) – eindeutiger Bezeichner. wird in Zitaten verknüpft. bis zu 128 Zeichen.
  • content (erforderlich; String) – Inhalt des Dokuments.
  • metadata (erforderlich; Array von Metadateneinträgen)
    • key (erforderlich; Zeichenkette) – Typ der Metadaten, z. B. „Autor“, „Datum“, „URL“ usw. Sollte etwas sein, das das Modell versteht.
    • value (erforderlich; String) – Wert der Metadaten.

Anforderungsbeispiel

Einteiliges Beispiel Jamba 1.5 Large und Jamba 1.5 Mini

{
   "model":"jamba-1.5-large",  <jamba-1.5-large|jamba-1.5-mini>
   "messages":[
      {
         "role":"user",
         "content":"I need help with your product. Can you please assist?"
      }
   ],
   "temperature":1,
   "top_p":1,
   "n":1,
   "stop":"\n",
   "stream":false
}

Einteiliges Beispiel Jamba 1.5 Large und Jamba 1.5 Mini mit Dokumenten

{
   "model":"jamba-1.5-large",  <jamba-1.5-large|jamba-1.5-mini>
   "messages":[
      {
         "role":"system",
         "content":'''<documents>
          # Documents

          You can use the following documents for reference:

          ## Document ID: 0
          Text: Harry Potter is a series of seven fantasy novels written by British author J. K. Rowling.

          ## Document ID: 1
          Text: The Great Gatsby is a novel by American writer F. Scott Fitzgerald.
          </documents>'''},

       {
           "role":"user",
           "content":"Who wrote Harry Potter?"
       }
   ],
   "temperature":0.4,
   "top_p":1,
   "n":1,
   "stop":"\n",
   "stream":false
}

Chatbeispiel (vierte Anforderung, die die dritte Benutzerantwort enthält)

{
  "model": "jamba-instruct",
  "messages": [
     {"role": "system",
      "content": "You are a helpful genie just released from a bottle. You start the conversation with 'Thank you for freeing me! I grant you one wish.'"},
     {"role":"user",
      "content":"I want a new car"},
     {"role":"assistant",
      "content":"🚗 Great choice, I can definitely help you with that! Before I grant your wish, can you tell me what kind of car you're looking for?"},
     {"role":"user",
      "content":"A corvette"},
     {"role":"assistant",
      "content":"Great choice! What color and year?"},
     {"role":"user",
      "content":"1963 black split window Corvette"}
  ],
  "n":3
}

Antwortschema

Die Antwort hängt geringfügig davon ab, ob das Ergebnis gestreamt wird oder nicht.

In einem nicht gestreamten Ergebnis werden alle Antworten in einer einzigen Antwort übermittelt, die auch eine usage-Eigenschaft enthält.

In einem gestreamten Ergebnis,

  • enthält jede Antwort ein einzelnes Token im choices-Feld
  • unterscheidet sich die Struktur des choices-Objekts
  • enthält nur die letzte Antwort ein usage-Objekt
  • wird die gesamte Antwort in ein data-Objekt eingeschlossen
  • ist das letzte Antwortobjekt data: [DONE]

Die Antwortnutzlast ist ein Wörterbuch mit den folgenden Feldern:

Schlüssel type Beschreibung
id string Ein eindeutiger Bezeichner für die Anforderung.
model string Der Name des verwendeten Modells
choices list[object] Der vom Modell generierte Antworttext. Bei einer Nichtstreamingantwort handelt es sich um eine Liste mit n-Elementen. Bei einer Streamingantwort handelt es sich um ein einzelnes Objekt, das ein einzelnes Token enthält. Weiter unten folgt die Beschreibung des Objekts.
usage object Nutzungsstatistiken für die Vervollständigungsanforderung Details finden Sie weiter unten.

Das choices-Antwortobjekt enthält die modellgenerierte Antwort. Das -Objekt weist die folgenden Felder auf:

Schlüssel type Beschreibung
index integer Nullbasierter Index der Nachricht in der Liste der Nachrichten. Entspricht möglicherweise nicht der Position in der Liste. Bei gestreamten Nachrichten ist dies immer null.
message ODER delta object Die generierte Nachricht (oder das Token in einer Streamingantwort). Derselbe Objekttyp, wie in der Anforderung beschrieben, mit zwei Änderungen:
– In einer Nichtstreamingantwort wird dieses Objekt message genannt.
– In einer Streamingantwort wird es delta genannt und enthält entweder message oder role, aber nie beide.
finish_reason string Der Grund, warum das Modell das Generieren von Token beendet hat:
- stop: Das Modell hat einen natürlichen Beendigungspunkt oder eine bereitgestellte Beendigungssequenz erreicht.
- length: Die maximale Anzahl von Token wurde erreicht.
- content_filter: Die generierte Antwort verletzte eine Richtlinie zu verantwortungsvoller KI.
- null: Nur Streaming. In einer Streamingantwort lauten alle Antworten außer der letzten null.

Das message-Antwortobjekt enthält die modellgenerierte Antwort. Das -Objekt weist die folgenden Felder auf:

Schlüssel type Beschreibung
role string Die Rolle des Autors dieser Nachricht
content string or null Der Inhalt der Nachricht.
tool_calls array or null Die vom Modell generierten Toolaufrufe.

Das tool_calls-Antwortobjekt enthält die modellgenerierte Antwort. Das -Objekt weist die folgenden Felder auf:

Schlüssel type Beschreibung
id string Die ID des Toolaufrufs
type string Der Typ des Tools. Derzeit wird nur function unterstützt.
function object Die Funktion, die das Modell aufgerufen hat

Das function-Antwortobjekt enthält die modellgenerierte Antwort. Das -Objekt weist die folgenden Felder auf:

Schlüssel type Beschreibung
name string Der Name der aufzurufenden Funktion.
arguments string Die Argumente, mit denen die Funktion aufgerufen werden soll, wie sie vom Modell im JSON-Format generiert werden.

Das usage-Antwortobjekt enthält die folgenden Felder.

Schlüssel type Wert
prompt_tokens integer Anzahl der Token im Prompt. Beachten Sie, dass die Anzahl der Prompttoken zusätzliche vom System hinzugefügte Token enthält, um die Promptliste, wie vom Modell vorgeschrieben, als einzelne Zeichenfolge zu formatieren. Die Anzahl zusätzlicher Token ist in der Regel proportional zur Anzahl der Nachrichten im Thread und sollte relativ klein sein.
completion_tokens integer Die Anzahl der Token, die in der Vervollständigung generiert werden
total_tokens integer Token insgesamt

Beispiel für eine Nichtstreamingantwort

{
  "id":"cmpl-524c73beb8714d878e18c3b5abd09f2a",
  "choices":[
    {
      "index":0,
      "message":{
        "role":"assistant",
        "content":"The human nose can detect over 1 trillion different scents, making it one of the most sensitive smell organs in the animal kingdom."
      },
      "finishReason":"stop"
    }
  ],
  "created": 1717487036,
  "usage":{
    "promptTokens":116,
    "completionTokens":30,
    "totalTokens":146
  }
}

Beispiel für eine Streamingantwort

data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"role": "assistant"}, "created": 1717487336, "finish_reason": null}]}
data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"content": ""}, "created": 1717487336, "finish_reason": null}]}
data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"content": " The"}, "created": 1717487336, "finish_reason": null}]}
data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"content": " first e"}, "created": 1717487336, "finish_reason": null}]}
data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"content": "mpe"}, "created": 1717487336, "finish_reason": null}]}
... 115 responses omitted for sanity ...
data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"content": "me"}, "created": 1717487336, "finish_reason": null}]}
data: {"id": "cmpl-8e8b2f6556f94714b0cd5cfe3eeb45fc", "choices": [{"index": 0, "delta": {"content": "."}, "created": 1717487336,"finish_reason": "stop"}], "usage": {"prompt_tokens": 107, "completion_tokens": 121, "total_tokens": 228}}
data: [DONE]

Kosten und Kontingente

Kosten- und Kontingentüberlegungen zu Jamba-Familienmodellen, die als serverlose API bereitgestellt werden

Die als serverlose API bereitgestellten Jamba-Familienmodelle werden von AI21 im Azure Marketplace angeboten und sind zur Nutzung mit Azure KI Studio integriert. Die Azure Marketplace-Preise werden bei der Bereitstellung oder bei der Optimierung der Modelle angezeigt.

Jedes Mal, wenn ein Arbeitsbereich ein bestimmtes Modellangebot aus dem Azure Marketplace abonniert, wird eine neue Ressource erstellt, um die mit der Nutzung verbundenen Kosten nachzuverfolgen. Die gleiche Ressource wird zum Nachverfolgen der Kosten im Zusammenhang mit Rückschluss und Optimierung verwendet. Es stehen jedoch mehrere Verbrauchseinheiten zur Verfügung, um die einzelnen Szenarien unabhängig voneinander nachzuverfolgen.

Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachen der Kosten für Modelle, die über den Azure Marketplace angeboten werden.

Das Kontingent wird pro Bereitstellung verwaltet. Jede Bereitstellung hat eine Rate von 200.000 Token pro Minute und 1.000 API-Anforderungen pro Minute. Derzeit wird jedoch eine Bereitstellung pro Modell und Projekt beschränkt. Wenden Sie sich an den Microsoft Azure-Support, wenn die aktuellen Ratenbegrenzungen für Ihre Szenarien nicht ausreichen.

Inhaltsfilterung

Modelle, die als serverlose API bereitgestellt werden, werden durch Azure KI Inhaltssicherheit geschützt. Wenn Azure KI Inhaltssicherheit aktiviert ist, durchlaufen sowohl Prompt als auch Vervollständigung ein Ensemble von Klassifizierungsmodellen, das darauf abzielt, die Ausgabe schädlicher Inhalte zu erkennen und zu verhindern. Das System zur Inhaltsfilterung (Vorschau) erkennt bestimmte Kategorien potenziell schädlicher Inhalte sowohl in Eingabeprompts als auch in Ausgabevervollständigungen und ergreift entsprechende Maßnahmen. Erfahren Sie mehr über Azure KI Inhaltssicherheit.