Nasazení modelů Meta Llama s využitím studio Azure Machine Learning

Článek
05/22/2024

V tomto článku se dozvíte o modelech Meta Llama (LLM). Dozvíte se také, jak pomocí studio Azure Machine Learning nasazovat modely z této sady na bezserverová rozhraní API s průběžnými platbami nebo na spravované výpočetní prostředky.

Důležité

Přečtěte si další informace o oznámení modelů Meta Llama 3, které jsou nyní k dispozici na webu Azure AI Model Catalog: Blog technické komunity Microsoftu a blog meta oznámení.

Meta Llama 3 modely a nástroje jsou kolekce předem natrénovaných a jemně vyladěných generativních textových modelů v rozsahu od 8 miliard do 70 miliard parametrů. Řada modelů Meta Llama obsahuje také jemně vyladěné verze optimalizované pro případy použití dialogu s výztuhou učení z lidské zpětné vazby (RLHF), označované jako Meta-Llama-3-8B-Instruct a Meta-Llama-3-70B-Instruct. Projděte si následující ukázky GitHubu a prozkoumejte integrace s LangChain, LiteLLM, OpenAI a rozhraním Azure API.

Důležité

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.

Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Nasazení modelů Meta Llama jako bezserverového rozhraní API

Některé modely v katalogu modelů je možné nasadit jako bezserverové rozhraní API s fakturací s průběžnými platbami, což poskytuje způsob, jak je využívat jako rozhraní API, aniž byste je hostovali ve vašem předplatném, a přitom zachovat potřeby podnikových organizací zabezpečení a dodržování předpisů. Tato možnost nasazení nevyžaduje kvótu z vašeho předplatného.

Modely Meta Llama se nasazují jako bezserverové rozhraní API s průběžnými platbami, které nabízí Meta AI prostřednictvím Microsoft Azure Marketplace a můžou přidat další podmínky použití a ceny.

Nabídky modelů Azure Marketplace

Následující modely jsou k dispozici na Azure Marketplace pro modely Meta Llama při nasazení jako bezserverové rozhraní API s průběžnými platbami:

Meta Llama 3
Meta Llama 2

Pokud potřebujete nasadit jiný model, nasaďte ho místo toho do spravovaného výpočetního prostředí .

Předplatné Azure s platným způsobem platby. Bezplatná nebo zkušební předplatná Azure nebudou fungovat. Pokud nemáte předplatné Azure, vytvořte si placený účet Azure, abyste mohli začít.
Pracovní prostor Učení Azure a výpočetní instance. Pokud tyto možnosti nemáte, vytvořte je pomocí kroků v rychlém startu : Vytvoření článku o prostředcích pracovního prostoru.

Důležité

Nabídka nasazení modelu průběžných plateb je dostupná jenom v pracovních prostorech vytvořených v oblastech USA – východ 2 a Švédsko – střed pro modely Meta Llama 3.
Řízení přístupu na základě role v Azure (Azure RBAC) slouží k udělení přístupu k operacím ve službě Azure Machine Learning. Pokud chcete provést kroky v tomto článku, musí mít váš uživatelský účet přiřazenou roli vlastníka nebo přispěvatele pro dané předplatné Azure. Případně můžete svému účtu přiřadit vlastní roli, která má následující oprávnění:
- V předplatném Azure – pokud chcete přihlásit pracovní prostor k odběru nabídky Azure Marketplace, jednou pro každý pracovní prostor pro každou nabídku:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Ve skupině prostředků – vytvoření a použití prostředku SaaS:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- V pracovním prostoru – nasazení koncových bodů (role datového vědce Azure Machine Learning už tato oprávnění obsahuje):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Další informace o oprávněních najdete v tématu Správa přístupu k pracovnímu prostoru Azure Machine Learning.

Předplatné Azure s platným způsobem platby. Bezplatná nebo zkušební předplatná Azure nebudou fungovat. Pokud nemáte předplatné Azure, vytvořte si placený účet Azure, abyste mohli začít.
Pracovní prostor Učení Azure a výpočetní instance. Pokud tyto možnosti nemáte, vytvořte je pomocí kroků v rychlém startu : Vytvoření článku o prostředcích pracovního prostoru.

Důležité

Nabídka nasazení modelu s průběžným platbami je k dispozici pouze v pracovních prostorech vytvořených v oblastech USA – východ 2 a USA – západ 3 pro modely Meta Llama 2.
Řízení přístupu na základě role v Azure (Azure RBAC) slouží k udělení přístupu k operacím ve službě Azure Machine Learning. Pokud chcete provést kroky v tomto článku, musí mít váš uživatelský účet přiřazenou roli vlastníka nebo přispěvatele pro dané předplatné Azure. Případně můžete svému účtu přiřadit vlastní roli, která má následující oprávnění:
- V předplatném Azure – pokud chcete přihlásit pracovní prostor k odběru nabídky Azure Marketplace, jednou pro každý pracovní prostor pro každou nabídku:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Ve skupině prostředků – vytvoření a použití prostředku SaaS:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- V pracovním prostoru – nasazení koncových bodů (role datového vědce Azure Machine Learning už tato oprávnění obsahuje):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Další informace o oprávněních najdete v tématu Správa přístupu k pracovnímu prostoru Azure Machine Learning.

Vytvoření nového nasazení

Vytvoření nasazení:

Meta Llama 3
Meta Llama 2

Přejděte na studio Azure Machine Learning.
Vyberte pracovní prostor, ve kterém chcete modely nasadit. Pokud chcete použít nabídku nasazení modelu průběžných plateb, musí váš pracovní prostor patřit do oblasti USA – východ 2 nebo Švédsko – střed .
Zvolte model, který chcete nasadit z katalogu modelů.

Případně můžete zahájit nasazení tak, že přejdete do pracovního prostoru a vyberete Koncové body bezserverové>koncové body>Vytvořit.
Na stránce s přehledem modelu vyberte Nasadit a potom bezserverové rozhraní API s obsahem Azure AI Sejf ty.
V průvodci nasazením vyberte odkaz na podmínky Azure Marketplace, kde najdete další informace o podmínkách použití. Můžete také vybrat kartu Podrobnosti nabídky Marketplace, kde se dozvíte o cenách vybraného modelu.
Pokud model nasazujete v pracovním prostoru poprvé, musíte se přihlásit k odběru konkrétní nabídky (například Meta-Llama-3-70B) z Azure Marketplace. Tento krok vyžaduje, aby váš účet má oprávnění předplatného Azure a oprávnění skupiny prostředků uvedená v požadavcích. Každý pracovní prostor má vlastní předplatné konkrétní nabídky Azure Marketplace, která umožňuje řídit a monitorovat útratu. Vyberte Přihlášení k odběru a nasazení.

Poznámka:

Přihlášení k odběru pracovního prostoru konkrétní nabídce Azure Marketplace (v tomto případě Llama-3-70B) vyžaduje, aby váš účet získal přístup přispěvatele nebo vlastníka na úrovni předplatného, ve které je projekt vytvořen. Případně můžete svému uživatelskému účtu přiřadit vlastní roli, která má oprávnění předplatného Azure a oprávnění skupiny prostředků uvedená v požadavcích.
Jakmile si zaregistrujete pracovní prostor pro konkrétní nabídku Azure Marketplace, následná nasazení stejné nabídky ve stejném pracovním prostoru nevyžadují opětovné přihlášení k odběru. Proto nemusíte mít oprávnění na úrovni předplatného pro následná nasazení. Pokud se tento scénář týká vás, vyberte Pokračovat k nasazení.
Pojmenujte nasazení. Tento název se stane součástí adresy URL rozhraní API nasazení. Tato adresa URL musí být v každé oblasti Azure jedinečná.
Vyberte Nasadit. Počkejte, až se nasazení dokončí, a budete přesměrováni na stránku bezserverových koncových bodů.
Výběrem koncového bodu otevřete stránku s podrobnostmi.
Vyberte kartu Test a začněte s modelem pracovat.
Můžete si také poznamenat cílovou adresu URL a tajný klíč pro volání nasazení a generování dokončení.
Podrobnosti koncového bodu, adresu URL a přístupové klíče můžete kdykoli najít tak, že přejdete na koncové body bezserverové>koncové body pracovního prostoru.>

Další informace o fakturaci modelů Meta Llama nasazených jako bezserverové rozhraní API najdete v tématu Aspekty nákladů a kvót pro modely Meta Llama nasazené jako bezserverové rozhraní API.

Využívání modelů Meta Llama jako služby

Modely nasazené jako služba je možné využívat pomocí chatu nebo rozhraní API pro dokončování v závislosti na typu modelu, který jste nasadili.

Meta Llama 3
Meta Llama 2

V pracovním prostoru vyberte koncové body bez serveru koncové body>.
Vyhledejte a vyberte nasazení, které jste vytvořili.
Zkopírujte cílovou adresu URL a hodnoty tokenu klíče.
Vytvořte požadavek rozhraní API na základě typu modelu, který jste nasadili.
- Pro modely dokončení, jako Llama-3-8Bje například , použijte <target_url>/v1/completions rozhraní API.
- Pro modely chatu<target_url>/v1/chat/completions, jako Llama-3-8B-Instructje například , použijte rozhraní API.
Další informace o používání rozhraní API najdete v referenční části.

V pracovním prostoru vyberte koncové body bez serveru koncové body>.
Vyhledejte a vyberte nasazení, které jste vytvořili.
Zkopírujte cílovou adresu URL a hodnoty tokenu klíče.
Vytvořte požadavek rozhraní API na základě typu modelu, který jste nasadili.
- Pro modely dokončení, jako Meta-Llama-2-7Bje například , použijte /v1/completions rozhraní API nebo rozhraní API pro odvozování modelů Azure AI na trase /completions.
- Pro modely chatu, jako Meta-Llama-2-7B-Chatje například , použijte /v1/chat/completions rozhraní API nebo rozhraní API pro odvozování modelů Azure AI na trase /chat/completions.
Další informace o používání rozhraní API najdete v referenční části.

Referenční informace pro modely Meta Llama nasazené bezserverové rozhraní API

Modely Llama přijímají rozhraní API pro odvozování modelů Azure AI na trase /chat/completions nebo rozhraní API chatu Llama na ./v1/chat/completions Stejným způsobem je možné dokončování textu vygenerovat pomocí rozhraní API pro odvozování modelů Azure AI na trase /completions nebo rozhraní API pro doplňování llama na /v1/completions

Schéma rozhraní API pro odvozování modelů Azure AI najdete v referenčních informacích k článku o dokončování chatu a specifikaci OpenAPI lze získat ze samotného koncového bodu.

Rozhraní API pro dokončování

Pomocí metody POST odešlete požadavek na trasu /v1/completions :

Požádat

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Schéma požadavku

Datová část je formátovaný řetězec JSON obsahující následující parametry:

Klíč	Typ	Výchozí	Popis
`prompt`	`string`	Nemá žádnou výchozí hodnotu. Tato hodnota musí být zadána.	Výzva k odeslání do modelu.
`stream`	`boolean`	`False`	Streamování umožňuje generovat tokeny, které se odesílají jako události odesílané jen pro data, kdykoli budou k dispozici.
`max_tokens`	`integer`	`16`	Maximální počet tokenů, které se mají vygenerovat v dokončení. Počet tokenů výzvy plus `max_tokens` nesmí překročit délku kontextu modelu.
`top_p`	`float`	`1`	Alternativou k odběru vzorků s teplotou, označovanou jako vzorkování jádra, kde model bere v úvahu výsledky tokenů s `top_p` hmotností pravděpodobnosti. Hodnota 0,1 tedy znamená, že se považují pouze tokeny, které tvoří 10% hmotnost pravděpodobnosti. Obecně doporučujeme měnit `top_p` nebo `temperature`, ale ne obojí.
`temperature`	`float`	`1`	Teplota vzorkování, která se má použít, mezi 0 a 2. Vyšší hodnoty znamenají, že vzorky modelu obecněji distribuují tokeny. Nula znamená vzorkování greedy. Doporučujeme toto nebo `top_p`, ale ne obojí.
`n`	`integer`	`1`	Kolik dokončení se má vygenerovat pro každou výzvu. Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
`stop`	`array`	`null`	Řetězec nebo seznam řetězců obsahující slovo, ve kterém rozhraní API přestane generovat další tokeny. Vrácený text nebude obsahovat sekvenci zastavení.
`best_of`	`integer`	`1`	Vygeneruje `best_of` dokončení na straně serveru a vrátí "nejlepší" (ten s nejnižší pravděpodobností protokolu na token). Výsledky se nedají streamovat. Při použití `n`s , `best_of` určuje počet dokončení kandidáta a `n` určuje, kolik se má vrátit – best_of musí být větší než `n`. Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
`logprobs`	`integer`	`null`	Číslo označující zahrnutí pravděpodobností protokolu u `logprobs` nejpravděpodobnějších tokenů a vybraných tokenů. Pokud je například `logprobs` 10, vrátí rozhraní API seznam 10 nejpravděpodobnějších tokenů. Rozhraní API vždy vrací protokolprob vzorkovaného tokenu, takže v odpovědi může být až `logprobs`+1 prvků.
`presence_penalty`	`float`	`null`	Číslo mezi -2,0 a 2,0 Kladné hodnoty sankují nové tokeny na základě toho, jestli se zatím zobrazují v textu, což zvyšuje pravděpodobnost, že model mluví o nových tématech.
`ignore_eos`	`boolean`	`True`	Zda se má ignorovat token EOS a pokračovat v generování tokenů po vygenerování tokenu EOS.
`use_beam_search`	`boolean`	`False`	Zda použít vyhledávání paprsků místo vzorkování. V takovém případě `best_of` musí být větší než `1` a `temperature` musí být `0`.
`stop_token_ids`	`array`	`null`	Seznam ID tokenů, které po vygenerování zastaví další generování tokenů. Vrácený výstup obsahuje tokeny zastavení, pokud tokeny stop nejsou speciální tokeny.
`skip_special_tokens`	`boolean`	`null`	Zda se mají ve výstupu přeskočit speciální tokeny.

Příklad

Text

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Schéma odpovědi

Datová část odpovědi je slovník s následujícími poli.

Klíč	Typ	Popis
`id`	`string`	Jedinečný identifikátor dokončení.
`choices`	`array`	Seznam voleb dokončení, které model vygeneroval pro vstupní výzvu.
`created`	`integer`	Časové razítko unixu (v sekundách) doby vytvoření dokončení.
`model`	`string`	Model_id použité k dokončení.
`object`	`string`	Typ objektu, který je vždy `text_completion`.
`usage`	`object`	Statistiky využití žádosti o dokončení

Tip

V režimu streamování je pro každý blok odpovědí vždy null, s výjimkou posledního, finish_reason který je ukončen datovou částí [DONE].

Objekt choices je slovník s následujícími poli.

Klíč	Typ	Popis
`index`	`integer`	Index voleb. Když `best_of`> 1, index v tomto poli nemusí být v pořadí a nemusí být 0 až n-1.
`text`	`string`	Výsledek dokončení
`finish_reason`	`string`	Důvod, proč model přestal generovat tokeny: - `stop`: Model dosáhl přirozeného bodu zastavení nebo zadané sekvence zastavení. - `length`: Pokud byl dosažen maximální počet tokenů. - `content_filter`: Při moderování RAI a CMP vynutí moderování. - `content_filter_error`: Při moderování došlo k chybě a nemohla se rozhodnout o odpovědi. - `null`: Odezva rozhraní API stále probíhá nebo je neúplná.
`logprobs`	`object`	Pravděpodobnosti protokolu vygenerovaných tokenů ve výstupním textu.

Objekt usage je slovník s následujícími poli.

Klíč	Typ	Hodnota
`prompt_tokens`	`integer`	Počet tokenů v příkazovém řádku
`completion_tokens`	`integer`	Počet tokenů vygenerovaných v dokončení
`total_tokens`	`integer`	Celkový počet tokenů

Objekt logprobs je slovník s následujícími poli:

Klíč	Typ	Hodnota
`text_offsets`	`array` z `integers`	Pozice nebo index každého tokenu ve výstupu dokončení.
`token_logprobs`	`array` z `float`	Vybráno `logprobs` ze slovníku v `top_logprobs` poli.
`tokens`	`array` z `string`	Vybrané tokeny.
`top_logprobs`	`array` z `dictionary`	Pole slovníku. V každém slovníku je klíčem token a hodnota je prob.

Příklad

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

Chat API

Pomocí metody POST odešlete požadavek na trasu /v1/chat/completions :

Požádat

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Schéma požadavku

Datová část je formátovaný řetězec JSON obsahující následující parametry:

Klíč	Typ	Výchozí	Popis
`messages`	`string`	Nemá žádnou výchozí hodnotu. Tato hodnota musí být zadána.	Zpráva nebo historie zpráv, které se mají použít k zobrazení výzvy k zobrazení výzvy modelu.
`stream`	`boolean`	`False`	Streamování umožňuje generovat tokeny, které se odesílají jako události odesílané jen pro data, kdykoli budou k dispozici.
`max_tokens`	`integer`	`16`	Maximální počet tokenů, které se mají vygenerovat v dokončení. Počet tokenů výzvy plus `max_tokens` nesmí překročit délku kontextu modelu.
`top_p`	`float`	`1`	Alternativou k odběru vzorků s teplotou, označovanou jako vzorkování jádra, kde model bere v úvahu výsledky tokenů s `top_p` hmotností pravděpodobnosti. Hodnota 0,1 tedy znamená, že se považují pouze tokeny, které tvoří 10% hmotnost pravděpodobnosti. Obecně doporučujeme měnit `top_p` nebo `temperature`, ale ne obojí.
`temperature`	`float`	`1`	Teplota vzorkování, která se má použít, mezi 0 a 2. Vyšší hodnoty znamenají, že vzorky modelu obecněji distribuují tokeny. Nula znamená vzorkování greedy. Doporučujeme toto nebo `top_p`, ale ne obojí.
`n`	`integer`	`1`	Kolik dokončení se má vygenerovat pro každou výzvu. Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
`stop`	`array`	`null`	Řetězec nebo seznam řetězců obsahující slovo, ve kterém rozhraní API přestane generovat další tokeny. Vrácený text nebude obsahovat sekvenci zastavení.
`best_of`	`integer`	`1`	Vygeneruje `best_of` dokončení na straně serveru a vrátí "nejlepší" (ten s nejnižší pravděpodobností protokolu na token). Výsledky se nedají streamovat. Při použití `n`s , `best_of` řídí počet kandidátských dokončení a `n` určuje, kolik se má vrátit –`best_of` musí být větší než `n`. Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
`logprobs`	`integer`	`null`	Číslo označující zahrnutí pravděpodobností protokolu u `logprobs` nejpravděpodobnějších tokenů a vybraných tokenů. Pokud je například `logprobs` 10, vrátí rozhraní API seznam 10 nejpravděpodobnějších tokenů. Rozhraní API vždy vrátí protokolprob ukázkového tokenu, takže v odpovědi může být až `logprobs`+1 prvků.
`presence_penalty`	`float`	`null`	Číslo mezi -2,0 a 2,0 Kladné hodnoty sankují nové tokeny na základě toho, jestli se zatím zobrazují v textu, což zvyšuje pravděpodobnost, že model mluví o nových tématech.
`ignore_eos`	`boolean`	`True`	Zda se má ignorovat token EOS a pokračovat v generování tokenů po vygenerování tokenu EOS.
`use_beam_search`	`boolean`	`False`	Zda použít vyhledávání paprsků místo vzorkování. V takovém případě `best_of` musí být větší než `1` a `temperature` musí být `0`.
`stop_token_ids`	`array`	`null`	Seznam ID tokenů, které po vygenerování zastaví další generování tokenů. Vrácený výstup obsahuje tokeny zastavení, pokud tokeny stop nejsou speciální tokeny.
`skip_special_tokens`	`boolean`	`null`	Zda se mají ve výstupu přeskočit speciální tokeny.

Objekt messages má následující pole:

Klíč	Typ	Hodnota
`content`	`string`	Obsah zprávy. Obsah se vyžaduje pro všechny zprávy.
`role`	`string`	Role autora zprávy Jeden z `system`, `user`nebo `assistant`.

Příklad

Text

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Schéma odpovědi

Datová část odpovědi je slovník s následujícími poli.

Klíč	Typ	Popis
`id`	`string`	Jedinečný identifikátor dokončení.
`choices`	`array`	Seznam voleb dokončení, které model vygeneroval pro vstupní zprávy.
`created`	`integer`	Časové razítko unixu (v sekundách) doby vytvoření dokončení.
`model`	`string`	Model_id použité k dokončení.
`object`	`string`	Typ objektu, který je vždy `chat.completion`.
`usage`	`object`	Statistiky využití žádosti o dokončení

Tip

V režimu streamování je pro každý blok odpovědí vždy null, s výjimkou posledního, finish_reason který je ukončen datovou částí [DONE]. V každém choices objektu se klíč pro messages změní pomocí delta.

Objekt choices je slovník s následujícími poli.

Klíč	Typ	Popis
`index`	`integer`	Index voleb. Když `best_of`1, index v tomto poli nemusí být v pořadí a nemusí být `0n-1`.>
`messages` nebo `delta`	`string`	Výsledkem dokončení chatu je `messages` objekt. Při použití `delta` režimu streamování se použije klíč.
`finish_reason`	`string`	Důvod, proč model přestal generovat tokeny: - `stop`: Model narazil na přirozený bod zastavení nebo zadanou sekvenci zastavení. - `length`: Pokud byl dosažen maximální počet tokenů. - `content_filter`: Při moderování RAI a CMP vynutí moderování - `content_filter_error`: Při moderování došlo k chybě a nemohla se rozhodnout o odpovědi. - `null`: Odezva rozhraní API stále probíhá nebo je neúplná.
`logprobs`	`object`	Pravděpodobnosti protokolu vygenerovaných tokenů ve výstupním textu.

Objekt usage je slovník s následujícími poli.

Klíč	Typ	Hodnota
`prompt_tokens`	`integer`	Počet tokenů v příkazovém řádku
`completion_tokens`	`integer`	Počet tokenů vygenerovaných v dokončení
`total_tokens`	`integer`	Celkový počet tokenů

Objekt logprobs je slovník s následujícími poli:

Klíč	Typ	Hodnota
`text_offsets`	`array` z `integers`	Pozice nebo index každého tokenu ve výstupu dokončení.
`token_logprobs`	`array` z `float`	Vybráno `logprobs` ze slovníku v `top_logprobs` poli.
`tokens`	`array` z `string`	Vybrané tokeny.
`top_logprobs`	`array` z `dictionary`	Pole slovníku. V každém slovníku je klíčem token a hodnota je prob.

Příklad

Následuje příklad odpovědi.

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Nasazení modelů Meta Llama do spravovaného výpočetního prostředí

Kromě nasazení pomocí spravované služby s průběžnými platbami můžete také nasadit modely Llama 3 do spravovaného výpočetního prostředí v studio Azure Machine Learning. Při nasazení do spravovaného výpočetního prostředí můžete vybrat všechny podrobnosti o infrastruktuře, na které model běží, včetně virtuálních počítačů, které se mají použít, a počtu instancí pro zpracování očekávaného zatížení. Modely nasazené do spravované kvóty využití výpočetních prostředků z vašeho předplatného Všechny modely v rodině Meta Llama je možné nasadit do spravovaného výpočetního prostředí.

Vytvoření nového nasazení

Meta Llama 3
Meta Llama 2

Pomocí těchto kroků nasaďte model, například Llama-3-7B-Instruct do koncového bodu v reálném čase v studio Azure Machine Learning.

Vyberte pracovní prostor, ve kterém chcete model nasadit.
Zvolte model, který chcete nasadit z katalogu modelů studia.

Případně můžete zahájit nasazení tak, že přejdete do svého pracovního prostoru a vyberete koncové body>v reálném čase– Vytvoří se koncové body.>
Na stránce s přehledem modelu vyberte Nasadit a potom spravované výpočetní prostředky bez obsahu Azure AI Sejf ty.
Na stránce Nasadit s obsahem Azure AI Sejf ty (Preview) vyberte Přeskočit obsah Azure AI Sejf ty, abyste mohli model dál nasazovat pomocí uživatelského rozhraní.

Tip

Obecně doporučujeme vybrat možnost Povolit obsah Azure AI Sejf ty (doporučeno) pro nasazení modelu Meta Llama. Tato možnost nasazení se v současné době podporuje jenom pomocí sady Python SDK a děje se to v poznámkovém bloku.
Vyberte Pokračovat.

Tip

Pokud ve vybraném projektu nemáte k dispozici dostatečnou kvótu, můžete použít možnost Použít sdílenou kvótu a potvrdím, že tento koncový bod se odstraní za 168 hodin.
Vyberte virtuální počítač a počet instancí, které chcete přiřadit k nasazení.
Vyberte, jestli chcete toto nasazení vytvořit jako součást nového koncového bodu nebo existujícího. Koncové body můžou hostovat více nasazení a současně udržovat konfiguraci prostředků výhradně pro každou z nich. Nasazení pod stejným koncovým bodem sdílejí identifikátor URI koncového bodu a jeho přístupové klíče.
Uveďte, jestli chcete povolit shromažďování dat odvozování (Preview).
Uveďte, jestli chcete povolit model balíčku (Preview).
Vyberte Nasadit. Po chvíli se otevře stránka podrobností koncového bodu.
Počkejte na dokončení vytváření a nasazení koncového bodu. Tento krok může trvat několik minut.
Vyberte stránku Využití koncového bodu a získejte ukázky kódu, které můžete použít k využívání nasazeného modelu ve vaší aplikaci.

Další informace o nasazení modelů do spravovaného výpočetního prostředí pomocí studia najdete v tématu Nasazení základních modelů do koncových bodů pro odvozování.

Pomocí těchto kroků nasaďte model, například Llama-2-7b-chat do koncového bodu v reálném čase v studio Azure Machine Learning.

Vyberte pracovní prostor, ve kterém chcete model nasadit.
Zvolte model, který chcete nasadit z katalogu modelů studia.

Případně můžete zahájit nasazení tak, že přejdete do svého pracovního prostoru a vyberete koncové body>v reálném čase– Vytvoří se koncové body.>
Na stránce s přehledem modelu vyberte Nasadit a potom spravované výpočetní prostředky bez obsahu Azure AI Sejf ty.
Na stránce Nasadit s obsahem Azure AI Sejf ty (Preview) vyberte Přeskočit obsah Azure AI Sejf ty, abyste mohli model dál nasazovat pomocí uživatelského rozhraní.

Tip

Obecně doporučujeme vybrat možnost Povolit obsah Azure AI Sejf ty (doporučeno) pro nasazení modelu Meta Llama. Tato možnost nasazení se v současné době podporuje jenom pomocí sady Python SDK a děje se to v poznámkovém bloku.
Vyberte Pokračovat.

Tip

Pokud ve vybraném projektu nemáte k dispozici dostatečnou kvótu, můžete použít možnost Použít sdílenou kvótu a potvrdím, že tento koncový bod se odstraní za 168 hodin.
Vyberte virtuální počítač a počet instancí, které chcete přiřadit k nasazení.
Vyberte, jestli chcete toto nasazení vytvořit jako součást nového koncového bodu nebo existujícího. Koncové body můžou hostovat více nasazení a současně udržovat konfiguraci prostředků výhradně pro každou z nich. Nasazení pod stejným koncovým bodem sdílejí identifikátor URI koncového bodu a jeho přístupové klíče.
Uveďte, jestli chcete povolit shromažďování dat odvozování (Preview).
Uveďte, jestli chcete povolit model balíčku (Preview).
Vyberte Nasadit. Po chvíli se otevře stránka podrobností koncového bodu.
Počkejte na dokončení vytváření a nasazení koncového bodu. Tento krok může trvat několik minut.
Vyberte stránku Využití koncového bodu a získejte ukázky kódu, které můžete použít k využívání nasazeného modelu ve vaší aplikaci.

Další informace o nasazení modelů do spravovaného výpočetního prostředí pomocí studia najdete v tématu Nasazení základních modelů do koncových bodů pro odvozování.

Využívání modelů Meta Llama nasazených do spravovaného výpočetního prostředí

Referenční informace o vyvolání modelů Meta Llama 3 nasazených do koncových bodů v reálném čase najdete na kartě modelu v katalogu modelů studio Azure Machine Learning. Karta každého modelu má stránku s přehledem, která obsahuje popis modelu, ukázky pro odvozování založené na kódu, vyladění a vyhodnocení modelu.

Náklady a kvóty

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené jako bezserverové rozhraní API

Modely Meta Llama nasazené jako bezserverové rozhraní API nabízí Meta prostřednictvím Azure Marketplace a integrované s studio Azure Machine Learning pro použití. Ceny za Azure Marketplace najdete při nasazování nebo vyladění modelů.

Pokaždé, když se pracovní prostor přihlásí k odběru dané nabídky modelu z Azure Marketplace, vytvoří se nový prostředek, který bude sledovat náklady spojené s jeho spotřebou. Stejný zdroj se používá ke sledování nákladů spojených s odvozováním a vyladěním; Pro nezávislé sledování jednotlivých scénářů je však k dispozici více měřičů.

Další informace o sledování nákladů najdete v tématu Monitorování nákladů na modely nabízené prostřednictvím Azure Marketplace.

Kvóta se spravuje podle nasazení. Každé nasazení má limit rychlosti 200 000 tokenů za minutu a 1 000 požadavků rozhraní API za minutu. V současné době ale omezujeme jedno nasazení na model na jeden projekt. Pokud aktuální limity sazeb pro vaše scénáře nestačí, obraťte se na podporu Microsoft Azure.

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené spravované výpočetní prostředky

Pro nasazení a odvozování modelů Meta Llama se spravovanými výpočetními prostředky využíváte kvótu jader virtuálního počítače, která je přiřazená k vašemu předplatnému na základě jednotlivých oblastí. Když se zaregistrujete k studio Azure Machine Learning, obdržíte výchozí kvótu virtuálních počítačů pro několik rodin virtuálních počítačů dostupných v dané oblasti. Nasazení můžete dál vytvářet, dokud nedosáhnete limitu kvóty. Jakmile dosáhnete tohoto limitu, můžete požádat o navýšení kvóty.

Filtrování obsahu

Modely nasazené jako bezserverové rozhraní API jsou chráněné zabezpečením obsahu Azure AI. Při nasazení do spravovaných výpočetních prostředků se můžete z této funkce odhlásit. S povolenou bezpečností obsahu Azure AI prochází výzva i dokončení souborem klasifikačních modelů určených k detekci a zabránění výstupu škodlivého obsahu. Systém filtrování obsahu zjistí a provede akce s konkrétními kategoriemi potenciálně škodlivého obsahu ve vstupních výzev i dokončení výstupu. Přečtěte si další informace o Sejf ty obsahu Azure AI.

Sdílet prostřednictvím

Nasazení modelů Meta Llama s využitím studio Azure Machine Learning

Nasazení modelů Meta Llama jako bezserverového rozhraní API

Nabídky modelů Azure Marketplace

Požadavky

Vytvoření nového nasazení

Využívání modelů Meta Llama jako služby

Referenční informace pro modely Meta Llama nasazené bezserverové rozhraní API

Rozhraní API pro dokončování

Schéma požadavku

Příklad

Schéma odpovědi

Příklad

Chat API

Schéma požadavku

Příklad

Schéma odpovědi

Příklad

Nasazení modelů Meta Llama do spravovaného výpočetního prostředí

Vytvoření nového nasazení

Využívání modelů Meta Llama nasazených do spravovaného výpočetního prostředí

Náklady a kvóty

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené jako bezserverové rozhraní API

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené spravované výpočetní prostředky

Filtrování obsahu

Další materiály

Sdílet prostřednictvím

Nasazení modelů Meta Llama s využitím studio Azure Machine Learning

Nasazení modelů Meta Llama jako bezserverového rozhraní API

Nabídky modelů Azure Marketplace

Požadavky

Vytvoření nového nasazení

Využívání modelů Meta Llama jako služby

Referenční informace pro modely Meta Llama nasazené bezserverové rozhraní API

Rozhraní API pro dokončování

Schéma požadavku

Příklad

Schéma odpovědi

Příklad

Chat API

Schéma požadavku

Příklad

Schéma odpovědi

Příklad

Nasazení modelů Meta Llama do spravovaného výpočetního prostředí

Vytvoření nového nasazení

Využívání modelů Meta Llama nasazených do spravovaného výpočetního prostředí

Náklady a kvóty

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené jako bezserverové rozhraní API

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené spravované výpočetní prostředky

Filtrování obsahu

Související obsah

Další materiály