Jak nasadit modely Mistral pomocí aplikace Azure AI Studio

Článek
07/04/2024

Důležité

Některé funkce popsané v tomto článku můžou být dostupné jenom ve verzi Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

V tomto článku se dozvíte, jak pomocí Azure AI Studia nasadit řadu modelů Mistral jako bezserverová rozhraní API s fakturací na základě tokenů s průběžnými platbami. Mistral AI nabízí v Azure AI Studiu dvě kategorie modelů. Tyto modely jsou k dispozici v katalogu modelů:

Prémiové modely: Mistral Large a Mistral Small. Tyto modely je možné nasadit jako bezserverová rozhraní API s fakturací na základě tokenů založených na průběžných platbách.
Otevřené modely: Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 a Mistral-7B-v01. Tyto modely je možné nasadit do spravovaných výpočetních prostředků ve vašem vlastním předplatném Azure.

V katalogu modelů Mistral si můžete projít filtrováním v kolekci Mistral.

Mistral Large je nejpokročilejší velký jazykový model (LLM) mistral AI. Dá se použít na libovolném úkolu založeném na jazyce, a to díky svým špičkovým možnostem a schopnostem znalostí.

Kromě toho mistral Large je:

Specializované na RAG. Klíčové informace se neztratí uprostřed dlouhých kontextových oken (až 32 K tokenů).
Silná v kódování. Generování, revize a komentáře kódu Podporuje všechny hlavní programovací jazyky.
Vícejazyčné podle návrhu. Nejlepší výkon ve francouzštině, němčině, španělštině, italštině a angličtině. Podporují se desítky dalších jazyků.
Zodpovědné dodržování předpisů umělé inteligence. Efektivní ochranné mantinely pečené v modelu a dodatečná bezpečnostní vrstva s safe_mode možností.

Mistral Small je nejúčinnějším velkým jazykovým modelem (LLM) mistral AI. Dá se použít u libovolné úlohy založené na jazyce, která vyžaduje vysokou efektivitu a nízkou latenci.

Mistral Small je:

Malý model optimalizovaný pro nízkou latenci. Velmi efektivní pro úlohy s vysokou objemem a nízkou latencí. Mistral Small je nejmenší proprietární model Mistral, má nižší latenci než Mixtral-8x7B.
Specializované na RAG. Klíčové informace se neztratí uprostřed dlouhých kontextových oken (až 32 tisíc tokenů).
Silná v kódování. Generování, revize a komentáře kódu Podporuje všechny hlavní programovací jazyky.
Vícejazyčné podle návrhu. Nejlepší výkon ve francouzštině, němčině, španělštině, italštině a angličtině. Podporují se desítky dalších jazyků.
Zodpovědné dodržování předpisů umělé inteligence. Efektivní mantinely pečené v modelu a dodatečná bezpečnostní vrstva s safe_mode možností.

Nasazení řady modelů Mistral jako bezserverového rozhraní API

Některé modely v katalogu modelů je možné nasadit jako bezserverové rozhraní API s průběžnými platbami. Tento druh nasazení poskytuje způsob, jak využívat modely jako rozhraní API bez jejich hostování ve vašem předplatném a současně udržovat podnikové zabezpečení a dodržování předpisů, které organizace potřebují. Tato možnost nasazení nevyžaduje kvótu z vašeho předplatného.

Mistral Large a Mistral Small je možné nasadit jako bezserverové rozhraní API s průběžnými platbami a nabízí Mistral AI prostřednictvím Microsoft Azure Marketplace. Mistral AI může změnit nebo aktualizovat podmínky použití a ceny těchto modelů.

Požadavky

Předplatné Azure s platným způsobem platby. Bezplatná nebo zkušební předplatná Azure nebudou fungovat. Pokud nemáte předplatné Azure, vytvořte si placený účet Azure, abyste mohli začít.
Centrum AI Studio. Nabídka nasazení bezserverového modelu rozhraní API pro způsobilé modely v rodině Mistral je dostupná pouze u center vytvořených v těchto oblastech:
- East US
- USA – východ 2
- USA – středosever
- Středojižní USA
- USA – západ
- USA – západ 3
- Švédsko – střed
Seznam oblastí dostupných pro každý z modelů podporujících nasazení koncových bodů bez serveru najdete v tématu Dostupnost oblastí pro modely v koncových bodech bezserverového rozhraní API.
Projekt Azure AI Studio.
Řízení přístupu na základě role v Azure (Azure RBAC) se používá k udělení přístupu k operacím v Azure AI Studiu. Pokud chcete provést kroky v tomto článku, musí být vašemu uživatelskému účtu přiřazena role Vývojář Azure AI ve skupině prostředků. Další informace o oprávněních najdete v tématu Řízení přístupu na základě role v nástroji Azure AI Studio.

Vytvoření nového nasazení

Následující kroky ukazují nasazení mistral Large, ale stejný postup můžete použít k nasazení Mistral Small nahrazením názvu modelu.

Vytvoření nasazení:

Přihlaste se k Azure AI Studiu.
Na levém bočním panelu vyberte Katalog modelů.
Vyhledejte a vyberte Mistral-large a otevřete stránku s podrobnostmi.
Výběrem možnosti Nasadit otevřete okno nasazení bezserverového rozhraní API pro model.
Případně můžete zahájit nasazení spuštěním projektu v AI Studiu.
1. Na levém bočním panelu projektu vyberte Nasazení komponent>.
2. Vyberte + Vytvořit nasazení.
3. Vyhledejte a vyberte Mistral-large. otevřete stránku Podrobnosti modelu.
4. Výběrem možnosti Potvrdit otevřete okno nasazení bezserverového rozhraní API pro model.
Vyberte projekt, ve kterém chcete model nasadit. Pokud chcete použít nabídku nasazení bezserverového modelu rozhraní API, musí váš projekt patřit do jedné z oblastí uvedených v požadavcích.
V průvodci nasazením vyberte odkaz na podmínky Azure Marketplace, kde najdete další informace o podmínkách použití.
Vyberte kartu Ceny a podmínky a seznamte se s cenami pro vybraný model.
Vyberte tlačítko Přihlásit se k odběru a nasazení . Pokud model nasazujete v projektu poprvé, musíte se přihlásit k odběru projektu pro konkrétní nabídku. Tento krok vyžaduje, aby váš účet má pro skupinu prostředků oprávnění role Azure AI Developer, jak je uvedeno v požadavcích. Každý projekt má vlastní předplatné konkrétní nabídky modelu Azure Marketplace, která umožňuje řídit a monitorovat útraty. V současné době můžete mít pro každý model v rámci projektu pouze jedno nasazení.
Jakmile se přihlásíte k odběru projektu pro konkrétní nabídku Azure Marketplace, následná nasazení stejné nabídky ve stejném projektu nevyžadují opětovné přihlášení k odběru. Pokud se tento scénář týká vás, můžete vybrat možnost Pokračovat k nasazení .
Pojmenujte nasazení. Tento název se stane součástí adresy URL rozhraní API nasazení. Tato adresa URL musí být v každé oblasti Azure jedinečná.
Vyberte Nasadit. Počkejte, až bude nasazení připravené a budete přesměrováni na stránku Nasazení.
Vyberte Otevřít v dětském hřišti a začněte s modelem pracovat.
Vraťte se na stránku Nasazení, vyberte nasazení a poznamenejte si cílovou adresu URL koncového bodu a tajný klíč. Další informace o používání rozhraní API najdete v referenční části.
Podrobnosti o koncovém bodu, adresu URL a přístupové klíče můžete kdykoli najít tak, že přejdete na stránku přehledu projektu. Potom na levém bočním panelu projektu vyberte Nasazení komponent>.

Informace o fakturaci modelu Mistral AI nasazeného jako bezserverové rozhraní API s fakturací na základě tokenů s průběžnými platbami najdete v tématu Informace o nákladech a kvótách pro model Mistral nasazené jako služba.

Využívání rodiny Mistral modelů jako služby

Rodinné modely Mistral můžete využívat pomocí rozhraní API chatu.

Na stránce přehledu projektu přejděte na levý boční panel a vyberte Nasazení součástí>.
Vyhledejte a vyberte nasazení, které jste vytvořili.
Zkopírujte cílovou adresu URL a hodnotu klíče.
Vytvořte požadavek rozhraní API pomocí rozhraní API pro odvozování modelů Azure AI na trase /chat/completions a nativního rozhraní API Pro chat Mistral./v1/chat/completions

Další informace o používání rozhraní API najdete v referenční části.

Referenční informace pro řadu modelů Mistral nasazených jako služba

Modely Mistral přijímají rozhraní API pro odvozování modelů Azure AI na trase /chat/completions i nativní rozhraní MISTRAL CHAT API./v1/chat/completions

Rozhraní API pro odvozování modelů Azure AI

Schéma rozhraní API pro odvozování modelů Azure AI najdete v referenčních informacích k článku o dokončování chatu a specifikaci OpenAPI lze získat ze samotného koncového bodu.

Mistral Chat API

Pomocí metody POST odešlete požadavek na trasu /v1/chat/completions :

Požádat

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Schéma požadavku

Datová část je formátovaný řetězec JSON obsahující následující parametry:

Klíč	Typ	Výchozí	Popis
`messages`	`string`	Nemá žádnou výchozí hodnotu. Tato hodnota musí být zadána.	Zpráva nebo historie zpráv, které se mají použít k zobrazení výzvy k zobrazení výzvy modelu.
`stream`	`boolean`	`False`	Streamování umožňuje generovat tokeny, které se odesílají jako události odesílané jen pro data, kdykoli budou k dispozici.
`max_tokens`	`integer`	`8192`	Maximální počet tokenů, které se mají vygenerovat v dokončení. Počet tokenů výzvy plus `max_tokens` nesmí překročit délku kontextu modelu.
`top_p`	`float`	`1`	Alternativou k odběru vzorků s teplotou, označovanou jako vzorkování jádra, kde model bere v úvahu výsledky tokenů s `top_p` hmotností pravděpodobnosti. Hodnota 0,1 tedy znamená, že se považují pouze tokeny, které tvoří 10% hmotnost pravděpodobnosti. Obecně doporučujeme měnit `top_p` nebo `temperature`, ale ne obojí.
`temperature`	`float`	`1`	Teplota vzorkování, která se má použít, mezi 0 a 2. Vyšší hodnoty znamenají, že vzorky modelu obecněji distribuují tokeny. Nula znamená vzorkování greedy. Doporučujeme tento parametr změnit, `top_p`ale ne obojí.
`ignore_eos`	`boolean`	`False`	Zda se má ignorovat token EOS a pokračovat v generování tokenů po vygenerování tokenu EOS.
`safe_prompt`	`boolean`	`False`	Zda chcete před všemi konverzacemi vložit bezpečnostní výzvu.

Objekt messages má následující pole:

Klíč	Typ	Hodnota
`content`	`string`	Obsah zprávy. Obsah se vyžaduje pro všechny zprávy.
`role`	`string`	Role autora zprávy Jeden z `system`, `user`nebo `assistant`.

Příklad požadavku

Text

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."
        },
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Schéma odpovědi

Datová část odpovědi je slovník s následujícími poli:

Klíč	Typ	Popis
`id`	`string`	Jedinečný identifikátor dokončení.
`choices`	`array`	Seznam voleb dokončení, které model vygeneroval pro vstupní zprávy.
`created`	`integer`	Časové razítko unixu (v sekundách) doby vytvoření dokončení.
`model`	`string`	Model_id použité k dokončení.
`object`	`string`	Typ objektu, který je vždy `chat.completion`.
`usage`	`object`	Statistiky využití žádosti o dokončení

Tip

V režimu streamování je pro každý blok odpovědí vždy null, s výjimkou posledního, finish_reason který je ukončen datovou částí [DONE]. V každém choices objektu se klíč pro messages změní pomocí delta.

Objekt choices je slovník s následujícími poli:

Klíč	Typ	Popis
`index`	`integer`	Index voleb. Když `best_of`1, index v tomto poli nemusí být v pořadí a nemusí být `0` `n-1`.>
`messages` nebo `delta`	`string`	Výsledkem dokončení chatu je `messages` objekt. Při použití `delta` režimu streamování se použije klíč.
`finish_reason`	`string`	Důvod, proč model přestal generovat tokeny: - `stop`: Model narazil na přirozený bod zastavení nebo zadanou sekvenci zastavení. - `length`: Pokud byl dosažen maximální počet tokenů. - `content_filter`: Při moderování RAI a CMP vynutí moderování - `content_filter_error`: Při moderování došlo k chybě a nemohla se rozhodnout o odpovědi. - `null`: Odezva rozhraní API stále probíhá nebo je neúplná.
`logprobs`	`object`	Pravděpodobnosti protokolu vygenerovaných tokenů ve výstupním textu.

Objekt usage je slovník s následujícími poli:

Klíč	Typ	Hodnota
`prompt_tokens`	`integer`	Počet tokenů v příkazovém řádku
`completion_tokens`	`integer`	Počet tokenů vygenerovaných v dokončení
`total_tokens`	`integer`	Celkový počet tokenů

Objekt logprobs je slovník s následujícími poli:

Klíč	Typ	Hodnota
`text_offsets`	`array` z `integers`	Pozice nebo index každého tokenu ve výstupu dokončení.
`token_logprobs`	`array` z `float`	Vybráno `logprobs` ze slovníku v `top_logprobs` poli.
`tokens`	`array` z `string`	Vybrané tokeny.
`top_logprobs`	`array` z `dictionary`	Pole slovníku. V každém slovníku je klíčem token a hodnota je pravděpodobnost.

Příklad odpovědi

Následující JSON je ukázková odpověď:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Další příklady odvození

Ukázkový typ	Ukázkový poznámkový blok
Rozhraní příkazového řádku s využitím webových požadavků CURL a Pythonu	webrequests.ipynb
OpenAI SDK (experimentální)	openaisdk.ipynb
LangChain	langchain.ipynb
Mistral AI	mistralai.ipynb
LiteLLM	litellm.ipynb

Náklady a kvóty

Důležité informace o nákladech a kvótách pro řadu modelů Mistral nasazených jako služba

Modely Mistral nasazené jako bezserverové rozhraní API nabízí Mistral AI prostřednictvím Azure Marketplace a integrované s Azure AI Studio pro použití. Ceny na Azure Marketplace najdete při nasazení modelu.

Pokaždé, když si projekt předplatí danou nabídku z tržiště Azure Marketplace, vytvoří se nový prostředek pro sledování nákladů spojených s jeho spotřebou. Stejný zdroj se používá ke sledování nákladů spojených s odvozováním; Pro nezávislé sledování jednotlivých scénářů je však k dispozici více měřičů.

Další informace o sledování nákladů naleznete v části Sledování nákladů na modely nabízené prostřednictvím služby Azure Marketplace.

Kvóta se spravuje podle nasazení. Každé nasazení má limit rychlosti 200 000 tokenů za minutu a 1 000 požadavků rozhraní API za minutu. V současné době ale omezujeme jedno nasazení na model na jeden projekt. Pokud aktuální limity sazeb pro vaše scénáře nestačí, obraťte se na podporu Microsoft Azure.

Filtrování obsahu

Modely nasazené jako bezserverové rozhraní API s průběžnými platbami jsou chráněné službou Azure AI Content Safety. S bezpečností obsahu Azure AI prochází výzva i dokončení souborem klasifikačních modelů určených k detekci a zabránění výstupu škodlivého obsahu. Systém filtrování obsahu zjistí a provede akce s konkrétními kategoriemi potenciálně škodlivého obsahu ve vstupních výzev i dokončení výstupu. Další informace o filtrování obsahu najdete tady.

Sdílet prostřednictvím

Jak nasadit modely Mistral pomocí aplikace Azure AI Studio

Mistral rodina modelů

Nasazení řady modelů Mistral jako bezserverového rozhraní API

Požadavky

Vytvoření nového nasazení

Využívání rodiny Mistral modelů jako služby

Referenční informace pro řadu modelů Mistral nasazených jako služba

Rozhraní API pro odvozování modelů Azure AI

Mistral Chat API

Schéma požadavku

Příklad požadavku

Schéma odpovědi

Příklad odpovědi

Další příklady odvození

Náklady a kvóty

Důležité informace o nákladech a kvótách pro řadu modelů Mistral nasazených jako služba

Filtrování obsahu

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Jak nasadit modely Mistral pomocí aplikace Azure AI Studio

Mistral rodina modelů

Nasazení řady modelů Mistral jako bezserverového rozhraní API

Požadavky

Vytvoření nového nasazení

Využívání rodiny Mistral modelů jako služby

Referenční informace pro řadu modelů Mistral nasazených jako služba

Rozhraní API pro odvozování modelů Azure AI

Mistral Chat API

Schéma požadavku

Příklad požadavku

Schéma odpovědi

Příklad odpovědi

Další příklady odvození

Náklady a kvóty

Důležité informace o nákladech a kvótách pro řadu modelů Mistral nasazených jako služba

Filtrování obsahu

Související obsah

Váš názor

Váš názor

Další materiály