Sdílet prostřednictvím


Nasazení modelů Meta Llama s využitím studio Azure Machine Learning

V tomto článku se dozvíte o modelech Meta Llama (LLM). Dozvíte se také, jak pomocí studio Azure Machine Learning nasazovat modely z této sady na bezserverová rozhraní API s průběžnými platbami nebo na spravované výpočetní prostředky.

Důležité

Přečtěte si další informace o oznámení modelů Meta Llama 3, které jsou nyní k dispozici na webu Azure AI Model Catalog: Blog technické komunity Microsoftu a blog meta oznámení.

Meta Llama 3 modely a nástroje jsou kolekce předem natrénovaných a jemně vyladěných generativních textových modelů v rozsahu od 8 miliard do 70 miliard parametrů. Řada modelů Meta Llama obsahuje také jemně vyladěné verze optimalizované pro případy použití dialogu s výztuhou učení z lidské zpětné vazby (RLHF), označované jako Meta-Llama-3-8B-Instruct a Meta-Llama-3-70B-Instruct. Projděte si následující ukázky GitHubu a prozkoumejte integrace s LangChain, LiteLLM, OpenAI a rozhraním Azure API.

Důležité

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.

Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Nasazení modelů Meta Llama jako bezserverového rozhraní API

Některé modely v katalogu modelů je možné nasadit jako bezserverové rozhraní API s fakturací s průběžnými platbami, což poskytuje způsob, jak je využívat jako rozhraní API, aniž byste je hostovali ve vašem předplatném, a přitom zachovat potřeby podnikových organizací zabezpečení a dodržování předpisů. Tato možnost nasazení nevyžaduje kvótu z vašeho předplatného.

Modely Meta Llama se nasazují jako bezserverové rozhraní API s průběžnými platbami, které nabízí Meta AI prostřednictvím Microsoft Azure Marketplace a můžou přidat další podmínky použití a ceny.

Nabídky modelů Azure Marketplace

Následující modely jsou k dispozici na Azure Marketplace pro modely Meta Llama při nasazení jako bezserverové rozhraní API s průběžnými platbami:

Pokud potřebujete nasadit jiný model, nasaďte ho místo toho do spravovaného výpočetního prostředí .

Požadavky

  • Předplatné Azure s platným způsobem platby. Bezplatná nebo zkušební předplatná Azure nebudou fungovat. Pokud nemáte předplatné Azure, vytvořte si placený účet Azure, abyste mohli začít.

  • Pracovní prostor Učení Azure a výpočetní instance. Pokud tyto možnosti nemáte, vytvořte je pomocí kroků v rychlém startu : Vytvoření článku o prostředcích pracovního prostoru.

    Důležité

    Nabídka nasazení modelu průběžných plateb je dostupná jenom v pracovních prostorech vytvořených v oblastech USA – východ 2 a Švédsko – střed pro modely Meta Llama 3.

  • Řízení přístupu na základě role v Azure (Azure RBAC) slouží k udělení přístupu k operacím ve službě Azure Machine Learning. Pokud chcete provést kroky v tomto článku, musí mít váš uživatelský účet přiřazenou roli vlastníka nebo přispěvatele pro dané předplatné Azure. Případně můžete svému účtu přiřadit vlastní roli, která má následující oprávnění:

    • V předplatném Azure – pokud chcete přihlásit pracovní prostor k odběru nabídky Azure Marketplace, jednou pro každý pracovní prostor pro každou nabídku:

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • Ve skupině prostředků – vytvoření a použití prostředku SaaS:

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • V pracovním prostoru – nasazení koncových bodů (role datového vědce Azure Machine Learning už tato oprávnění obsahuje):

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    Další informace o oprávněních najdete v tématu Správa přístupu k pracovnímu prostoru Azure Machine Learning.

Vytvoření nového nasazení

Vytvoření nasazení:

  1. Přejděte na studio Azure Machine Learning.

  2. Vyberte pracovní prostor, ve kterém chcete modely nasadit. Pokud chcete použít nabídku nasazení modelu průběžných plateb, musí váš pracovní prostor patřit do oblasti USA – východ 2 nebo Švédsko – střed .

  3. Zvolte model, který chcete nasadit z katalogu modelů.

    Případně můžete zahájit nasazení tak, že přejdete do pracovního prostoru a vyberete Koncové body bezserverové>koncové body>Vytvořit.

  4. Na stránce s přehledem modelu vyberte Nasadit a potom bezserverové rozhraní API s obsahem Azure AI Sejf ty.

  5. V průvodci nasazením vyberte odkaz na podmínky Azure Marketplace, kde najdete další informace o podmínkách použití. Můžete také vybrat kartu Podrobnosti nabídky Marketplace, kde se dozvíte o cenách vybraného modelu.

  6. Pokud model nasazujete v pracovním prostoru poprvé, musíte se přihlásit k odběru konkrétní nabídky (například Meta-Llama-3-70B) z Azure Marketplace. Tento krok vyžaduje, aby váš účet má oprávnění předplatného Azure a oprávnění skupiny prostředků uvedená v požadavcích. Každý pracovní prostor má vlastní předplatné konkrétní nabídky Azure Marketplace, která umožňuje řídit a monitorovat útratu. Vyberte Přihlášení k odběru a nasazení.

    Poznámka:

    Přihlášení k odběru pracovního prostoru konkrétní nabídce Azure Marketplace (v tomto případě Llama-3-70B) vyžaduje, aby váš účet získal přístup přispěvatele nebo vlastníka na úrovni předplatného, ve které je projekt vytvořen. Případně můžete svému uživatelskému účtu přiřadit vlastní roli, která má oprávnění předplatného Azure a oprávnění skupiny prostředků uvedená v požadavcích.

  7. Jakmile si zaregistrujete pracovní prostor pro konkrétní nabídku Azure Marketplace, následná nasazení stejné nabídky ve stejném pracovním prostoru nevyžadují opětovné přihlášení k odběru. Proto nemusíte mít oprávnění na úrovni předplatného pro následná nasazení. Pokud se tento scénář týká vás, vyberte Pokračovat k nasazení.

  8. Pojmenujte nasazení. Tento název se stane součástí adresy URL rozhraní API nasazení. Tato adresa URL musí být v každé oblasti Azure jedinečná.

  9. Vyberte Nasadit. Počkejte, až se nasazení dokončí, a budete přesměrováni na stránku bezserverových koncových bodů.

  10. Výběrem koncového bodu otevřete stránku s podrobnostmi.

  11. Vyberte kartu Test a začněte s modelem pracovat.

  12. Můžete si také poznamenat cílovou adresu URL a tajný klíč pro volání nasazení a generování dokončení.

  13. Podrobnosti koncového bodu, adresu URL a přístupové klíče můžete kdykoli najít tak, že přejdete na koncové body bezserverové>koncové body pracovního prostoru.>

Další informace o fakturaci modelů Meta Llama nasazených jako bezserverové rozhraní API najdete v tématu Aspekty nákladů a kvót pro modely Meta Llama nasazené jako bezserverové rozhraní API.

Využívání modelů Meta Llama jako služby

Modely nasazené jako služba je možné využívat pomocí chatu nebo rozhraní API pro dokončování v závislosti na typu modelu, který jste nasadili.

  1. V pracovním prostoru vyberte koncové body bez serveru koncové body>.

  2. Vyhledejte a vyberte nasazení, které jste vytvořili.

  3. Zkopírujte cílovou adresu URL a hodnoty tokenu klíče.

  4. Vytvořte požadavek rozhraní API na základě typu modelu, který jste nasadili.

    Další informace o používání rozhraní API najdete v referenční části.

Referenční informace pro modely Meta Llama nasazené bezserverové rozhraní API

Modely Llama přijímají rozhraní API pro odvozování modelů Azure AI na trase /chat/completions nebo rozhraní API chatu Llama na ./v1/chat/completions Stejným způsobem je možné dokončování textu vygenerovat pomocí rozhraní API pro odvozování modelů Azure AI na trase /completions nebo rozhraní API pro doplňování llama na /v1/completions

Schéma rozhraní API pro odvozování modelů Azure AI najdete v referenčních informacích k článku o dokončování chatu a specifikaci OpenAPI lze získat ze samotného koncového bodu.

Rozhraní API pro dokončování

Pomocí metody POST odešlete požadavek na trasu /v1/completions :

Požádat

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Schéma požadavku

Datová část je formátovaný řetězec JSON obsahující následující parametry:

Klíč Typ Výchozí Popis
prompt string Nemá žádnou výchozí hodnotu. Tato hodnota musí být zadána. Výzva k odeslání do modelu.
stream boolean False Streamování umožňuje generovat tokeny, které se odesílají jako události odesílané jen pro data, kdykoli budou k dispozici.
max_tokens integer 16 Maximální počet tokenů, které se mají vygenerovat v dokončení. Počet tokenů výzvy plus max_tokens nesmí překročit délku kontextu modelu.
top_p float 1 Alternativou k odběru vzorků s teplotou, označovanou jako vzorkování jádra, kde model bere v úvahu výsledky tokenů s top_p hmotností pravděpodobnosti. Hodnota 0,1 tedy znamená, že se považují pouze tokeny, které tvoří 10% hmotnost pravděpodobnosti. Obecně doporučujeme měnit top_p nebo temperature, ale ne obojí.
temperature float 1 Teplota vzorkování, která se má použít, mezi 0 a 2. Vyšší hodnoty znamenají, že vzorky modelu obecněji distribuují tokeny. Nula znamená vzorkování greedy. Doporučujeme toto nebo top_p, ale ne obojí.
n integer 1 Kolik dokončení se má vygenerovat pro každou výzvu.
Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
stop array null Řetězec nebo seznam řetězců obsahující slovo, ve kterém rozhraní API přestane generovat další tokeny. Vrácený text nebude obsahovat sekvenci zastavení.
best_of integer 1 Vygeneruje best_of dokončení na straně serveru a vrátí "nejlepší" (ten s nejnižší pravděpodobností protokolu na token). Výsledky se nedají streamovat. Při použití ns , best_of určuje počet dokončení kandidáta a n určuje, kolik se má vrátit – best_of musí být větší než n.
Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
logprobs integer null Číslo označující zahrnutí pravděpodobností protokolu u logprobs nejpravděpodobnějších tokenů a vybraných tokenů. Pokud je například logprobs 10, vrátí rozhraní API seznam 10 nejpravděpodobnějších tokenů. Rozhraní API vždy vrací protokolprob vzorkovaného tokenu, takže v odpovědi může být až logprobs+1 prvků.
presence_penalty float null Číslo mezi -2,0 a 2,0 Kladné hodnoty sankují nové tokeny na základě toho, jestli se zatím zobrazují v textu, což zvyšuje pravděpodobnost, že model mluví o nových tématech.
ignore_eos boolean True Zda se má ignorovat token EOS a pokračovat v generování tokenů po vygenerování tokenu EOS.
use_beam_search boolean False Zda použít vyhledávání paprsků místo vzorkování. V takovém případě best_of musí být větší než 1 a temperature musí být 0.
stop_token_ids array null Seznam ID tokenů, které po vygenerování zastaví další generování tokenů. Vrácený výstup obsahuje tokeny zastavení, pokud tokeny stop nejsou speciální tokeny.
skip_special_tokens boolean null Zda se mají ve výstupu přeskočit speciální tokeny.

Příklad

Text

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Schéma odpovědi

Datová část odpovědi je slovník s následujícími poli.

Klíč Typ Popis
id string Jedinečný identifikátor dokončení.
choices array Seznam voleb dokončení, které model vygeneroval pro vstupní výzvu.
created integer Časové razítko unixu (v sekundách) doby vytvoření dokončení.
model string Model_id použité k dokončení.
object string Typ objektu, který je vždy text_completion.
usage object Statistiky využití žádosti o dokončení

Tip

V režimu streamování je pro každý blok odpovědí vždy null, s výjimkou posledního, finish_reason který je ukončen datovou částí [DONE].

Objekt choices je slovník s následujícími poli.

Klíč Typ Popis
index integer Index voleb. Když best_of> 1, index v tomto poli nemusí být v pořadí a nemusí být 0 až n-1.
text string Výsledek dokončení
finish_reason string Důvod, proč model přestal generovat tokeny:
- stop: Model dosáhl přirozeného bodu zastavení nebo zadané sekvence zastavení.
- length: Pokud byl dosažen maximální počet tokenů.
- content_filter: Při moderování RAI a CMP vynutí moderování.
- content_filter_error: Při moderování došlo k chybě a nemohla se rozhodnout o odpovědi.
- null: Odezva rozhraní API stále probíhá nebo je neúplná.
logprobs object Pravděpodobnosti protokolu vygenerovaných tokenů ve výstupním textu.

Objekt usage je slovník s následujícími poli.

Klíč Typ Hodnota
prompt_tokens integer Počet tokenů v příkazovém řádku
completion_tokens integer Počet tokenů vygenerovaných v dokončení
total_tokens integer Celkový počet tokenů

Objekt logprobs je slovník s následujícími poli:

Klíč Typ Hodnota
text_offsets array z integers Pozice nebo index každého tokenu ve výstupu dokončení.
token_logprobs array z float Vybráno logprobs ze slovníku v top_logprobs poli.
tokens array z string Vybrané tokeny.
top_logprobs array z dictionary Pole slovníku. V každém slovníku je klíčem token a hodnota je prob.

Příklad

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

Chat API

Pomocí metody POST odešlete požadavek na trasu /v1/chat/completions :

Požádat

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Schéma požadavku

Datová část je formátovaný řetězec JSON obsahující následující parametry:

Klíč Typ Výchozí Popis
messages string Nemá žádnou výchozí hodnotu. Tato hodnota musí být zadána. Zpráva nebo historie zpráv, které se mají použít k zobrazení výzvy k zobrazení výzvy modelu.
stream boolean False Streamování umožňuje generovat tokeny, které se odesílají jako události odesílané jen pro data, kdykoli budou k dispozici.
max_tokens integer 16 Maximální počet tokenů, které se mají vygenerovat v dokončení. Počet tokenů výzvy plus max_tokens nesmí překročit délku kontextu modelu.
top_p float 1 Alternativou k odběru vzorků s teplotou, označovanou jako vzorkování jádra, kde model bere v úvahu výsledky tokenů s top_p hmotností pravděpodobnosti. Hodnota 0,1 tedy znamená, že se považují pouze tokeny, které tvoří 10% hmotnost pravděpodobnosti. Obecně doporučujeme měnit top_p nebo temperature, ale ne obojí.
temperature float 1 Teplota vzorkování, která se má použít, mezi 0 a 2. Vyšší hodnoty znamenají, že vzorky modelu obecněji distribuují tokeny. Nula znamená vzorkování greedy. Doporučujeme toto nebo top_p, ale ne obojí.
n integer 1 Kolik dokončení se má vygenerovat pro každou výzvu.
Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
stop array null Řetězec nebo seznam řetězců obsahující slovo, ve kterém rozhraní API přestane generovat další tokeny. Vrácený text nebude obsahovat sekvenci zastavení.
best_of integer 1 Vygeneruje best_of dokončení na straně serveru a vrátí "nejlepší" (ten s nejnižší pravděpodobností protokolu na token). Výsledky se nedají streamovat. Při použití ns , best_of řídí počet kandidátských dokončení a n určuje, kolik se má vrátit –best_of musí být větší než n.
Poznámka: Protože tento parametr generuje mnoho dokončení, může rychle spotřebovat kvótu tokenu.
logprobs integer null Číslo označující zahrnutí pravděpodobností protokolu u logprobs nejpravděpodobnějších tokenů a vybraných tokenů. Pokud je například logprobs 10, vrátí rozhraní API seznam 10 nejpravděpodobnějších tokenů. Rozhraní API vždy vrátí protokolprob ukázkového tokenu, takže v odpovědi může být až logprobs+1 prvků.
presence_penalty float null Číslo mezi -2,0 a 2,0 Kladné hodnoty sankují nové tokeny na základě toho, jestli se zatím zobrazují v textu, což zvyšuje pravděpodobnost, že model mluví o nových tématech.
ignore_eos boolean True Zda se má ignorovat token EOS a pokračovat v generování tokenů po vygenerování tokenu EOS.
use_beam_search boolean False Zda použít vyhledávání paprsků místo vzorkování. V takovém případě best_of musí být větší než 1 a temperature musí být 0.
stop_token_ids array null Seznam ID tokenů, které po vygenerování zastaví další generování tokenů. Vrácený výstup obsahuje tokeny zastavení, pokud tokeny stop nejsou speciální tokeny.
skip_special_tokens boolean null Zda se mají ve výstupu přeskočit speciální tokeny.

Objekt messages má následující pole:

Klíč Typ Hodnota
content string Obsah zprávy. Obsah se vyžaduje pro všechny zprávy.
role string Role autora zprávy Jeden z system, usernebo assistant.

Příklad

Text

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Schéma odpovědi

Datová část odpovědi je slovník s následujícími poli.

Klíč Typ Popis
id string Jedinečný identifikátor dokončení.
choices array Seznam voleb dokončení, které model vygeneroval pro vstupní zprávy.
created integer Časové razítko unixu (v sekundách) doby vytvoření dokončení.
model string Model_id použité k dokončení.
object string Typ objektu, který je vždy chat.completion.
usage object Statistiky využití žádosti o dokončení

Tip

V režimu streamování je pro každý blok odpovědí vždy null, s výjimkou posledního, finish_reason který je ukončen datovou částí [DONE]. V každém choices objektu se klíč pro messages změní pomocí delta.

Objekt choices je slovník s následujícími poli.

Klíč Typ Popis
index integer Index voleb. Když best_of1, index v tomto poli nemusí být v pořadí a nemusí být 0n-1.>
messages nebo delta string Výsledkem dokončení chatu je messages objekt. Při použití delta režimu streamování se použije klíč.
finish_reason string Důvod, proč model přestal generovat tokeny:
- stop: Model narazil na přirozený bod zastavení nebo zadanou sekvenci zastavení.
- length: Pokud byl dosažen maximální počet tokenů.
- content_filter: Při moderování RAI a CMP vynutí moderování
- content_filter_error: Při moderování došlo k chybě a nemohla se rozhodnout o odpovědi.
- null: Odezva rozhraní API stále probíhá nebo je neúplná.
logprobs object Pravděpodobnosti protokolu vygenerovaných tokenů ve výstupním textu.

Objekt usage je slovník s následujícími poli.

Klíč Typ Hodnota
prompt_tokens integer Počet tokenů v příkazovém řádku
completion_tokens integer Počet tokenů vygenerovaných v dokončení
total_tokens integer Celkový počet tokenů

Objekt logprobs je slovník s následujícími poli:

Klíč Typ Hodnota
text_offsets array z integers Pozice nebo index každého tokenu ve výstupu dokončení.
token_logprobs array z float Vybráno logprobs ze slovníku v top_logprobs poli.
tokens array z string Vybrané tokeny.
top_logprobs array z dictionary Pole slovníku. V každém slovníku je klíčem token a hodnota je prob.

Příklad

Následuje příklad odpovědi.

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Nasazení modelů Meta Llama do spravovaného výpočetního prostředí

Kromě nasazení pomocí spravované služby s průběžnými platbami můžete také nasadit modely Llama 3 do spravovaného výpočetního prostředí v studio Azure Machine Learning. Při nasazení do spravovaného výpočetního prostředí můžete vybrat všechny podrobnosti o infrastruktuře, na které model běží, včetně virtuálních počítačů, které se mají použít, a počtu instancí pro zpracování očekávaného zatížení. Modely nasazené do spravované kvóty využití výpočetních prostředků z vašeho předplatného Všechny modely v rodině Meta Llama je možné nasadit do spravovaného výpočetního prostředí.

Vytvoření nového nasazení

Pomocí těchto kroků nasaďte model, například Llama-3-7B-Instruct do koncového bodu v reálném čase v studio Azure Machine Learning.

  1. Vyberte pracovní prostor, ve kterém chcete model nasadit.

  2. Zvolte model, který chcete nasadit z katalogu modelů studia.

    Případně můžete zahájit nasazení tak, že přejdete do svého pracovního prostoru a vyberete koncové body>v reálném čase– Vytvoří se koncové body.>

  3. Na stránce s přehledem modelu vyberte Nasadit a potom spravované výpočetní prostředky bez obsahu Azure AI Sejf ty.

  4. Na stránce Nasadit s obsahem Azure AI Sejf ty (Preview) vyberte Přeskočit obsah Azure AI Sejf ty, abyste mohli model dál nasazovat pomocí uživatelského rozhraní.

    Tip

    Obecně doporučujeme vybrat možnost Povolit obsah Azure AI Sejf ty (doporučeno) pro nasazení modelu Meta Llama. Tato možnost nasazení se v současné době podporuje jenom pomocí sady Python SDK a děje se to v poznámkovém bloku.

  5. Vyberte Pokračovat.

    Tip

    Pokud ve vybraném projektu nemáte k dispozici dostatečnou kvótu, můžete použít možnost Použít sdílenou kvótu a potvrdím, že tento koncový bod se odstraní za 168 hodin.

  6. Vyberte virtuální počítač a počet instancí, které chcete přiřadit k nasazení.

  7. Vyberte, jestli chcete toto nasazení vytvořit jako součást nového koncového bodu nebo existujícího. Koncové body můžou hostovat více nasazení a současně udržovat konfiguraci prostředků výhradně pro každou z nich. Nasazení pod stejným koncovým bodem sdílejí identifikátor URI koncového bodu a jeho přístupové klíče.

  8. Uveďte, jestli chcete povolit shromažďování dat odvozování (Preview).

  9. Uveďte, jestli chcete povolit model balíčku (Preview).

  10. Vyberte Nasadit. Po chvíli se otevře stránka podrobností koncového bodu.

  11. Počkejte na dokončení vytváření a nasazení koncového bodu. Tento krok může trvat několik minut.

  12. Vyberte stránku Využití koncového bodu a získejte ukázky kódu, které můžete použít k využívání nasazeného modelu ve vaší aplikaci.

Další informace o nasazení modelů do spravovaného výpočetního prostředí pomocí studia najdete v tématu Nasazení základních modelů do koncových bodů pro odvozování.

Využívání modelů Meta Llama nasazených do spravovaného výpočetního prostředí

Referenční informace o vyvolání modelů Meta Llama 3 nasazených do koncových bodů v reálném čase najdete na kartě modelu v katalogu modelů studio Azure Machine Learning. Karta každého modelu má stránku s přehledem, která obsahuje popis modelu, ukázky pro odvozování založené na kódu, vyladění a vyhodnocení modelu.

Náklady a kvóty

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené jako bezserverové rozhraní API

Modely Meta Llama nasazené jako bezserverové rozhraní API nabízí Meta prostřednictvím Azure Marketplace a integrované s studio Azure Machine Learning pro použití. Ceny za Azure Marketplace najdete při nasazování nebo vyladění modelů.

Pokaždé, když se pracovní prostor přihlásí k odběru dané nabídky modelu z Azure Marketplace, vytvoří se nový prostředek, který bude sledovat náklady spojené s jeho spotřebou. Stejný zdroj se používá ke sledování nákladů spojených s odvozováním a vyladěním; Pro nezávislé sledování jednotlivých scénářů je však k dispozici více měřičů.

Další informace o sledování nákladů najdete v tématu Monitorování nákladů na modely nabízené prostřednictvím Azure Marketplace.

Snímek obrazovky znázorňující různé prostředky odpovídající různým nabídkám modelu a jejich přidruženým měřičům

Kvóta se spravuje podle nasazení. Každé nasazení má limit rychlosti 200 000 tokenů za minutu a 1 000 požadavků rozhraní API za minutu. V současné době ale omezujeme jedno nasazení na model na jeden projekt. Pokud aktuální limity sazeb pro vaše scénáře nestačí, obraťte se na podporu Microsoft Azure.

Důležité informace o nákladech a kvótách pro modely Meta Llama nasazené spravované výpočetní prostředky

Pro nasazení a odvozování modelů Meta Llama se spravovanými výpočetními prostředky využíváte kvótu jader virtuálního počítače, která je přiřazená k vašemu předplatnému na základě jednotlivých oblastí. Když se zaregistrujete k studio Azure Machine Learning, obdržíte výchozí kvótu virtuálních počítačů pro několik rodin virtuálních počítačů dostupných v dané oblasti. Nasazení můžete dál vytvářet, dokud nedosáhnete limitu kvóty. Jakmile dosáhnete tohoto limitu, můžete požádat o navýšení kvóty.

Filtrování obsahu

Modely nasazené jako bezserverové rozhraní API jsou chráněné zabezpečením obsahu Azure AI. Při nasazení do spravovaných výpočetních prostředků se můžete z této funkce odhlásit. S povolenou bezpečností obsahu Azure AI prochází výzva i dokončení souborem klasifikačních modelů určených k detekci a zabránění výstupu škodlivého obsahu. Systém filtrování obsahu zjistí a provede akce s konkrétními kategoriemi potenciálně škodlivého obsahu ve vstupních výzev i dokončení výstupu. Přečtěte si další informace o Sejf ty obsahu Azure AI.