Sdílet prostřednictvím


Jak nasadit modely Mistral pomocí aplikace Azure AI Studio

Důležité

Některé funkce popsané v tomto článku můžou být dostupné jenom ve verzi Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

V tomto článku se dozvíte, jak pomocí Azure AI Studia nasadit řadu modelů Mistral jako bezserverová rozhraní API s fakturací na základě tokenů s průběžnými platbami. Mistral AI nabízí v Azure AI Studiu dvě kategorie modelů. Tyto modely jsou k dispozici v katalogu modelů:

  • Prémiové modely: Mistral Large a Mistral Small. Tyto modely je možné nasadit jako bezserverová rozhraní API s fakturací na základě tokenů založených na průběžných platbách.
  • Otevřené modely: Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 a Mistral-7B-v01. Tyto modely je možné nasadit do spravovaných výpočetních prostředků ve vašem vlastním předplatném Azure.

V katalogu modelů Mistral si můžete projít filtrováním v kolekci Mistral.

Mistral rodina modelů

Mistral Large je nejpokročilejší velký jazykový model (LLM) mistral AI. Dá se použít na libovolném úkolu založeném na jazyce, a to díky svým špičkovým možnostem a schopnostem znalostí.

Kromě toho mistral Large je:

  • Specializované na RAG. Klíčové informace se neztratí uprostřed dlouhých kontextových oken (až 32 K tokenů).
  • Silná v kódování. Generování, revize a komentáře kódu Podporuje všechny hlavní programovací jazyky.
  • Vícejazyčné podle návrhu. Nejlepší výkon ve francouzštině, němčině, španělštině, italštině a angličtině. Podporují se desítky dalších jazyků.
  • Zodpovědné dodržování předpisů umělé inteligence. Efektivní ochranné mantinely pečené v modelu a dodatečná bezpečnostní vrstva s safe_mode možností.

Nasazení řady modelů Mistral jako bezserverového rozhraní API

Některé modely v katalogu modelů je možné nasadit jako bezserverové rozhraní API s průběžnými platbami. Tento druh nasazení poskytuje způsob, jak využívat modely jako rozhraní API bez jejich hostování ve vašem předplatném a současně udržovat podnikové zabezpečení a dodržování předpisů, které organizace potřebují. Tato možnost nasazení nevyžaduje kvótu z vašeho předplatného.

Mistral Large a Mistral Small je možné nasadit jako bezserverové rozhraní API s průběžnými platbami a nabízí Mistral AI prostřednictvím Microsoft Azure Marketplace. Mistral AI může změnit nebo aktualizovat podmínky použití a ceny těchto modelů.

Požadavky

  • Předplatné Azure s platným způsobem platby. Bezplatná nebo zkušební předplatná Azure nebudou fungovat. Pokud nemáte předplatné Azure, vytvořte si placený účet Azure, abyste mohli začít.

  • Centrum AI Studio. Nabídka nasazení bezserverového modelu rozhraní API pro způsobilé modely v rodině Mistral je dostupná pouze u center vytvořených v těchto oblastech:

    • East US
    • USA – východ 2
    • USA – středosever
    • Středojižní USA
    • USA – západ
    • USA – západ 3
    • Švédsko – střed

    Seznam oblastí dostupných pro každý z modelů podporujících nasazení koncových bodů bez serveru najdete v tématu Dostupnost oblastí pro modely v koncových bodech bezserverového rozhraní API.

  • Projekt Azure AI Studio.

  • Řízení přístupu na základě role v Azure (Azure RBAC) se používá k udělení přístupu k operacím v Azure AI Studiu. Pokud chcete provést kroky v tomto článku, musí být vašemu uživatelskému účtu přiřazena role Vývojář Azure AI ve skupině prostředků. Další informace o oprávněních najdete v tématu Řízení přístupu na základě role v nástroji Azure AI Studio.

Vytvoření nového nasazení

Následující kroky ukazují nasazení mistral Large, ale stejný postup můžete použít k nasazení Mistral Small nahrazením názvu modelu.

Vytvoření nasazení:

  1. Přihlaste se k Azure AI Studiu.

  2. Na levém bočním panelu vyberte Katalog modelů.

  3. Vyhledejte a vyberte Mistral-large a otevřete stránku s podrobnostmi.

    Snímek obrazovky znázorňující, jak získat přístup ke stránce podrobností modelu v katalogu modelů

  4. Výběrem možnosti Nasadit otevřete okno nasazení bezserverového rozhraní API pro model.

  5. Případně můžete zahájit nasazení spuštěním projektu v AI Studiu.

    1. Na levém bočním panelu projektu vyberte Nasazení komponent>.

    2. Vyberte + Vytvořit nasazení.

    3. Vyhledejte a vyberte Mistral-large. otevřete stránku Podrobnosti modelu.

      Snímek obrazovky znázorňující, jak získat přístup ke stránce podrobností modelu na stránce Nasazení v projektu

    4. Výběrem možnosti Potvrdit otevřete okno nasazení bezserverového rozhraní API pro model.

    Snímek obrazovky znázorňující, jak nasadit model jako bezserverové rozhraní API

  6. Vyberte projekt, ve kterém chcete model nasadit. Pokud chcete použít nabídku nasazení bezserverového modelu rozhraní API, musí váš projekt patřit do jedné z oblastí uvedených v požadavcích.

  7. V průvodci nasazením vyberte odkaz na podmínky Azure Marketplace, kde najdete další informace o podmínkách použití.

  8. Vyberte kartu Ceny a podmínky a seznamte se s cenami pro vybraný model.

  9. Vyberte tlačítko Přihlásit se k odběru a nasazení . Pokud model nasazujete v projektu poprvé, musíte se přihlásit k odběru projektu pro konkrétní nabídku. Tento krok vyžaduje, aby váš účet má pro skupinu prostředků oprávnění role Azure AI Developer, jak je uvedeno v požadavcích. Každý projekt má vlastní předplatné konkrétní nabídky modelu Azure Marketplace, která umožňuje řídit a monitorovat útraty. V současné době můžete mít pro každý model v rámci projektu pouze jedno nasazení.

  10. Jakmile se přihlásíte k odběru projektu pro konkrétní nabídku Azure Marketplace, následná nasazení stejné nabídky ve stejném projektu nevyžadují opětovné přihlášení k odběru. Pokud se tento scénář týká vás, můžete vybrat možnost Pokračovat k nasazení .

    Snímek obrazovky znázorňující projekt, který je už přihlášený k odběru nabídky

  11. Pojmenujte nasazení. Tento název se stane součástí adresy URL rozhraní API nasazení. Tato adresa URL musí být v každé oblasti Azure jedinečná. Snímek obrazovky znázorňující, jak vyznačit název nasazení, které chcete vytvořit

  12. Vyberte Nasadit. Počkejte, až bude nasazení připravené a budete přesměrováni na stránku Nasazení.

  13. Vyberte Otevřít v dětském hřišti a začněte s modelem pracovat.

  14. Vraťte se na stránku Nasazení, vyberte nasazení a poznamenejte si cílovou adresu URL koncového bodu a tajný klíč. Další informace o používání rozhraní API najdete v referenční části.

  15. Podrobnosti o koncovém bodu, adresu URL a přístupové klíče můžete kdykoli najít tak, že přejdete na stránku přehledu projektu. Potom na levém bočním panelu projektu vyberte Nasazení komponent>.

Informace o fakturaci modelu Mistral AI nasazeného jako bezserverové rozhraní API s fakturací na základě tokenů s průběžnými platbami najdete v tématu Informace o nákladech a kvótách pro model Mistral nasazené jako služba.

Využívání rodiny Mistral modelů jako služby

Rodinné modely Mistral můžete využívat pomocí rozhraní API chatu.

  1. Na stránce přehledu projektu přejděte na levý boční panel a vyberte Nasazení součástí>.

  2. Vyhledejte a vyberte nasazení, které jste vytvořili.

  3. Zkopírujte cílovou adresu URL a hodnotu klíče.

  4. Vytvořte požadavek rozhraní API pomocí rozhraní API pro odvozování modelů Azure AI na trase /chat/completions a nativního rozhraní API Pro chat Mistral./v1/chat/completions

Další informace o používání rozhraní API najdete v referenční části.

Referenční informace pro řadu modelů Mistral nasazených jako služba

Modely Mistral přijímají rozhraní API pro odvozování modelů Azure AI na trase /chat/completions i nativní rozhraní MISTRAL CHAT API./v1/chat/completions

Rozhraní API pro odvozování modelů Azure AI

Schéma rozhraní API pro odvozování modelů Azure AI najdete v referenčních informacích k článku o dokončování chatuspecifikaci OpenAPI lze získat ze samotného koncového bodu.

Mistral Chat API

Pomocí metody POST odešlete požadavek na trasu /v1/chat/completions :

Požádat

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Schéma požadavku

Datová část je formátovaný řetězec JSON obsahující následující parametry:

Klíč Typ Výchozí Popis
messages string Nemá žádnou výchozí hodnotu. Tato hodnota musí být zadána. Zpráva nebo historie zpráv, které se mají použít k zobrazení výzvy k zobrazení výzvy modelu.
stream boolean False Streamování umožňuje generovat tokeny, které se odesílají jako události odesílané jen pro data, kdykoli budou k dispozici.
max_tokens integer 8192 Maximální počet tokenů, které se mají vygenerovat v dokončení. Počet tokenů výzvy plus max_tokens nesmí překročit délku kontextu modelu.
top_p float 1 Alternativou k odběru vzorků s teplotou, označovanou jako vzorkování jádra, kde model bere v úvahu výsledky tokenů s top_p hmotností pravděpodobnosti. Hodnota 0,1 tedy znamená, že se považují pouze tokeny, které tvoří 10% hmotnost pravděpodobnosti. Obecně doporučujeme měnit top_p nebo temperature, ale ne obojí.
temperature float 1 Teplota vzorkování, která se má použít, mezi 0 a 2. Vyšší hodnoty znamenají, že vzorky modelu obecněji distribuují tokeny. Nula znamená vzorkování greedy. Doporučujeme tento parametr změnit, top_pale ne obojí.
ignore_eos boolean False Zda se má ignorovat token EOS a pokračovat v generování tokenů po vygenerování tokenu EOS.
safe_prompt boolean False Zda chcete před všemi konverzacemi vložit bezpečnostní výzvu.

Objekt messages má následující pole:

Klíč Typ Hodnota
content string Obsah zprávy. Obsah se vyžaduje pro všechny zprávy.
role string Role autora zprávy Jeden z system, usernebo assistant.

Příklad požadavku

Text

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."
        },
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Schéma odpovědi

Datová část odpovědi je slovník s následujícími poli:

Klíč Typ Popis
id string Jedinečný identifikátor dokončení.
choices array Seznam voleb dokončení, které model vygeneroval pro vstupní zprávy.
created integer Časové razítko unixu (v sekundách) doby vytvoření dokončení.
model string Model_id použité k dokončení.
object string Typ objektu, který je vždy chat.completion.
usage object Statistiky využití žádosti o dokončení

Tip

V režimu streamování je pro každý blok odpovědí vždy null, s výjimkou posledního, finish_reason který je ukončen datovou částí [DONE]. V každém choices objektu se klíč pro messages změní pomocí delta.

Objekt choices je slovník s následujícími poli:

Klíč Typ Popis
index integer Index voleb. Když best_of1, index v tomto poli nemusí být v pořadí a nemusí být 0 n-1.>
messages nebo delta string Výsledkem dokončení chatu je messages objekt. Při použití delta režimu streamování se použije klíč.
finish_reason string Důvod, proč model přestal generovat tokeny:
- stop: Model narazil na přirozený bod zastavení nebo zadanou sekvenci zastavení.
- length: Pokud byl dosažen maximální počet tokenů.
- content_filter: Při moderování RAI a CMP vynutí moderování
- content_filter_error: Při moderování došlo k chybě a nemohla se rozhodnout o odpovědi.
- null: Odezva rozhraní API stále probíhá nebo je neúplná.
logprobs object Pravděpodobnosti protokolu vygenerovaných tokenů ve výstupním textu.

Objekt usage je slovník s následujícími poli:

Klíč Typ Hodnota
prompt_tokens integer Počet tokenů v příkazovém řádku
completion_tokens integer Počet tokenů vygenerovaných v dokončení
total_tokens integer Celkový počet tokenů

Objekt logprobs je slovník s následujícími poli:

Klíč Typ Hodnota
text_offsets array z integers Pozice nebo index každého tokenu ve výstupu dokončení.
token_logprobs array z float Vybráno logprobs ze slovníku v top_logprobs poli.
tokens array z string Vybrané tokeny.
top_logprobs array z dictionary Pole slovníku. V každém slovníku je klíčem token a hodnota je pravděpodobnost.

Příklad odpovědi

Následující JSON je ukázková odpověď:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Další příklady odvození

Ukázkový typ Ukázkový poznámkový blok
Rozhraní příkazového řádku s využitím webových požadavků CURL a Pythonu webrequests.ipynb
OpenAI SDK (experimentální) openaisdk.ipynb
LangChain langchain.ipynb
Mistral AI mistralai.ipynb
LiteLLM litellm.ipynb

Náklady a kvóty

Důležité informace o nákladech a kvótách pro řadu modelů Mistral nasazených jako služba

Modely Mistral nasazené jako bezserverové rozhraní API nabízí Mistral AI prostřednictvím Azure Marketplace a integrované s Azure AI Studio pro použití. Ceny na Azure Marketplace najdete při nasazení modelu.

Pokaždé, když si projekt předplatí danou nabídku z tržiště Azure Marketplace, vytvoří se nový prostředek pro sledování nákladů spojených s jeho spotřebou. Stejný zdroj se používá ke sledování nákladů spojených s odvozováním; Pro nezávislé sledování jednotlivých scénářů je však k dispozici více měřičů.

Další informace o sledování nákladů naleznete v části Sledování nákladů na modely nabízené prostřednictvím služby Azure Marketplace.

Kvóta se spravuje podle nasazení. Každé nasazení má limit rychlosti 200 000 tokenů za minutu a 1 000 požadavků rozhraní API za minutu. V současné době ale omezujeme jedno nasazení na model na jeden projekt. Pokud aktuální limity sazeb pro vaše scénáře nestačí, obraťte se na podporu Microsoft Azure.

Filtrování obsahu

Modely nasazené jako bezserverové rozhraní API s průběžnými platbami jsou chráněné službou Azure AI Content Safety. S bezpečností obsahu Azure AI prochází výzva i dokončení souborem klasifikačních modelů určených k detekci a zabránění výstupu škodlivého obsahu. Systém filtrování obsahu zjistí a provede akce s konkrétními kategoriemi potenciálně škodlivého obsahu ve vstupních výzev i dokončení výstupu. Další informace o filtrování obsahu najdete tady.