Så här använder du Meta Llama-serien med modeller med Azure Machine Learning-studio
I den här artikeln får du lära dig mer om Meta Llama-modellfamiljen (LLM). Meta Llama-modeller och -verktyg är en samling förtränad och finjusterade generativa AI-text- och bildvägningsmodeller – allt i skala från SLI:er (1B, 3B-bas- och instruktionsmodeller) för enhets- och kant-slutsatsdragning – till mellanstora LLM:er (7B-, 8B- och 70B Base- och Instruct-modeller) och högpresterande modeller som Meta Llama 3.1 405B Instruera för användningsfall för syntetisk datagenerering och destillation.
Dricks
Se våra meddelanden om Metas Llama 3.2-familjemodeller som nu är tillgängliga i Azure AI Model Catalog via Metas blogg och Microsoft Tech Community Blog.
Se följande GitHub-exempel för att utforska integreringar med LangChain, LiteLLM, OpenAI och Azure API.
Viktigt!
Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade.
Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
Meta Llama-serien med modeller
Meta Llama-serien med modeller innehåller följande modeller:
Nu är llama 3.2-samlingen med SLA:er och modeller för bildskäl tillgängliga. Snart kommer Llama 3.2 11B Vision Instruct och Llama 3.2 90B Vision Instruct att vara tillgängliga som en serverlös API-slutpunkt via Models-as-a-Service. Från och med idag är följande modeller tillgängliga för distribution via hanterad beräkning:
- Llama 3.2 1B
- Llama 3.2 3B
- Llama 3.2 1B Instruera
- Llama 3.2 3B Instruera
- Llama Guard 3 1B
- Llama Guard 11B Vision
- Llama 3.2 11B Vision Instruct
- Llama 3.2 90B Vision Instruct är tillgängliga för hanterad beräkningsdistribution.
Förutsättningar
En Azure-prenumeration med en giltig betalningsmetod. Kostnadsfria azure-prenumerationer eller utvärderingsprenumerationer fungerar inte. Om du inte har en Azure-prenumeration skapar du ett betalt Azure-konto för att börja.
En Azure Machine Learning-arbetsyta och en beräkningsinstans. Om du inte har dessa använder du stegen i artikeln Snabbstart: Skapa arbetsyteresurser för att skapa dem. Det serverlösa API-modelldistributionserbjudandet för Meta Llama 3.1 och Llama 3 är endast tillgängligt med arbetsytor som skapats i dessa regioner:
- East US
- USA, östra 2
- USA, norra centrala
- USA, södra centrala
- USA, västra
- USA, västra 3
- Sverige, centrala
En lista över regioner som är tillgängliga för var och en av modellerna som stöder serverlösa API-slutpunktsdistributioner finns i Regiontillgänglighet för modeller i serverlösa API-slutpunkter.
Rollbaserade åtkomstkontroller i Azure (Azure RBAC) används för att bevilja åtkomst till åtgärder i Azure Machine Learning. Om du vill utföra stegen i den här artikeln måste ditt användarkonto tilldelas rollen ägare eller deltagare för Azure-prenumerationen. Alternativt kan ditt konto tilldelas en anpassad roll som har följande behörigheter:
I Azure-prenumerationen – för att prenumerera på arbetsytan till Azure Marketplace-erbjudandet, en gång för varje arbetsyta, per erbjudande:
Microsoft.MarketplaceOrdering/agreements/offers/plans/read
Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
Microsoft.SaaS/register/action
I resursgruppen – för att skapa och använda SaaS-resursen:
Microsoft.SaaS/resources/read
Microsoft.SaaS/resources/write
På arbetsytan – för att distribuera slutpunkter (dataexpertrollen i Azure Machine Learning innehåller redan dessa behörigheter):
Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Mer information om behörigheter finns i Hantera åtkomst till en Azure Machine Learning-arbetsyta.
Skapa en ny distribution
Så här skapar du en distribution:
Gå till Azure Machine Learning-studio.
Välj den arbetsyta där du vill distribuera dina modeller. Om du vill använda distributionserbjudandet betala per användning måste din arbetsyta tillhöra någon av de tillgängliga regioner som anges i kraven i den här artikeln.
Välj
Meta-Llama-3.1-405B-Instruct
att distribuera från modellkatalogen.Du kan också initiera distributionen genom att gå till din arbetsyta och välja Slutpunkter>Serverlösa slutpunkter>Skapa.
På sidan Information för
Meta-Llama-3.1-405B-Instruct
väljer du Distribuera och sedan Serverlöst API med Azure AI Content Safety.I distributionsguiden väljer du länken till Azure Marketplace-villkor för att lära dig mer om användningsvillkoren. Du kan också välja fliken Information om Marketplace-erbjudande för att lära dig mer om priser för den valda modellen.
Om det här är första gången du distribuerar modellen på arbetsytan måste du prenumerera på din arbetsyta för det specifika erbjudandet (till exempel
Meta-Llama-3.1-405B-Instruct
) från Azure Marketplace. Det här steget kräver att ditt konto har behörigheter för Azure-prenumerationer och resursgruppsbehörigheter som anges i förhandskraven. Varje arbetsyta har en egen prenumeration på det specifika Azure Marketplace-erbjudandet, vilket gör att du kan styra och övervaka utgifter. Välj Prenumerera och Distribuera.Kommentar
Om du prenumererar på en arbetsyta till ett visst Azure Marketplace-erbjudande (i det här fallet Llama-3-70B) måste ditt konto ha deltagar- eller ägaråtkomst på prenumerationsnivå där projektet skapas. Alternativt kan ditt användarkonto tilldelas en anpassad roll som har behörigheter för Azure-prenumerationen och behörigheter för resursgrupper som anges i förhandskraven.
När du har registrerat arbetsytan för det specifika Azure Marketplace-erbjudandet behöver efterföljande distributioner av samma erbjudande på samma arbetsyta inte prenumerera igen. Därför behöver du inte ha behörigheter på prenumerationsnivå för efterföljande distributioner. Om det här scenariot gäller för dig väljer du Fortsätt att distribuera.
Ge distributionen ett namn. Det här namnet blir en del av URL:en för distributions-API:et. Den här URL:en måste vara unik i varje Azure-region.
Välj distribuera. Vänta tills distributionen är klar och du omdirigeras till sidan serverlösa slutpunkter.
Välj slutpunkten för att öppna sidan Information.
Välj fliken Test för att börja interagera med modellen.
Du kan också anteckna mål-URL :en och den hemliga nyckeln för att anropa distributionen och generera slutföranden.
Du kan alltid hitta slutpunktens information, URL och åtkomstnycklar genom att navigera till Serverlösa slutpunkter för arbetsyteslutpunkter>>.
Mer information om fakturering för Meta Llama-modeller som distribuerats som ett serverlöst API finns i Kostnads- och kvotöverväganden för Meta Llama-modeller som distribueras som ett serverlöst API.
Använda Meta Llama-modeller som en tjänst
Modeller som distribueras som en tjänst kan användas med hjälp av antingen chatt- eller slutförande-API:et, beroende på vilken typ av modell du distribuerade.
På arbetsytan väljer du Slutpunkter>Serverlösa slutpunkter.
Leta upp och välj den
Meta-Llama-3.1-405B-Instruct
distribution som du skapade.Kopiera mål-URL:en och nyckeltokensvärden.
Gör en API-begäran baserat på vilken typ av modell du distribuerade.
- För slutförandemodeller, till exempel
Llama-3-8B
, använder du API:et<target_url>/v1/completions
. - För chattmodeller, till exempel
Meta-Llama-3.1-405B-Instruct
, använder du API:et/chat/completions
.
Mer information om hur du använder API:erna finns i referensavsnittet.
- För slutförandemodeller, till exempel
Referens för Meta Llama 3.1-modeller distribuerade ett serverlöst API
Llama-modeller accepterar både Azure AI Model Inference-API :et på vägen /chat/completions
eller ett Llama Chat-API på /v1/chat/completions
. På samma sätt kan textavslut genereras med hjälp av API:et för Azure AI-modellinferens på vägen /completions
eller ett Llama Completions-API på/v1/completions
Schemat API för Azure AI Model Inference finns i artikeln referens för Chattslutföranden och en OpenAPI-specifikation kan hämtas från själva slutpunkten.
API för slutförande
Använd metoden POST
för att skicka begäran till /v1/completions
vägen:
Begär
POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json
Schema för begäran
Payload är en JSON-formaterad sträng som innehåller följande parametrar:
Nyckel | Typ | Standardvärde | beskrivning |
---|---|---|---|
prompt |
string |
Ingen standard. Det här värdet måste anges. | Uppmaningen att skicka till modellen. |
stream |
boolean |
False |
Direktuppspelning gör att de genererade token kan skickas som databaserade serverutskickade händelser när de blir tillgängliga. |
max_tokens |
integer |
16 |
Det maximala antalet token som ska genereras i slutförandet. Tokenantalet för din fråga plus max_tokens får inte överskrida modellens kontextlängd. |
top_p |
float |
1 |
Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av tokens med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas. Vi rekommenderar vanligtvis att du top_p ändrar eller temperature , men inte båda. |
temperature |
float |
1 |
Provtagningstemperaturen som ska användas, mellan 0 och 2. Högre värden innebär att modellexemplen i större utsträckning distribuerar token. Noll betyder girig sampling. Vi rekommenderar att du ändrar detta eller top_p , men inte båda. |
n |
integer |
1 |
Hur många slutföranden som ska genereras för varje fråga. Obs! Eftersom den här parametern genererar många slutföranden kan den snabbt förbruka din tokenkvot. |
stop |
array |
null |
Sträng eller en lista med strängar som innehåller ordet där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen. |
best_of |
integer |
1 |
Genererar best_of slutföranden på serversidan och returnerar den "bästa" (den med den lägsta loggens sannolikhet per token). Resultat kan inte strömmas. När det används med n kontrollerar best_of du antalet slutförda kandidater och n anger hur många som ska returneras – best_of måste vara större än n . Obs! Eftersom den här parametern genererar många slutföranden kan den snabbt förbruka din tokenkvot. |
logprobs |
integer |
null |
Ett tal som anger att loggens sannolikheter ska inkluderas på de logprobs mest sannolika token och valda token. Om logprobs det till exempel är 10 returnerar API:et en lista över de 10 mest sannolika token. API:et returnerar alltid logprob för den samplade token, så det kan finnas upp till logprobs +1 element i svaret. |
presence_penalty |
float |
null |
Tal mellan -2.0 och 2.0. Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen. |
ignore_eos |
boolean |
True |
Om du vill ignorera EOS-token och fortsätta generera token när EOS-token har genererats. |
use_beam_search |
boolean |
False |
Om du vill använda strålsökning i stället för sampling. I sådana fall best_of måste vara större än 1 och temperature måste vara 0 . |
stop_token_ids |
array |
null |
Lista över ID:er för token som, när de genereras, stoppar ytterligare tokengenerering. De returnerade utdata innehåller stopptoken såvida inte stopptoken är särskilda token. |
skip_special_tokens |
boolean |
null |
Om du vill hoppa över särskilda token i utdata. |
Exempel
Brödtext
{
"prompt": "What's the distance to the moon?",
"temperature": 0.8,
"max_tokens": 512,
}
Svarsschema
Svarsnyttolasten är en ordlista med följande fält.
Nyckel | Typ | Beskrivning |
---|---|---|
id |
string |
En unik identifierare för slutförandet. |
choices |
array |
Listan över slutförandeval som modellen genererade för indataprompten. |
created |
integer |
Unix-tidsstämpeln (i sekunder) för när slutförandet skapades. |
model |
string |
Den model_id som används för slutförande. |
object |
string |
Objekttypen, som alltid text_completion är . |
usage |
object |
Användningsstatistik för slutförandebegäran. |
Dricks
I strömningsläget är för varje segment av svar finish_reason
alltid null
, förutom från den sista som avslutas med en nyttolast [DONE]
.
Objektet choices
är en ordlista med följande fält.
Nyckel | Typ | Beskrivning |
---|---|---|
index |
integer |
Valindex. När best_of > 1 kanske indexet i den här matrisen inte är i ordning och kanske inte är 0 till n-1. |
text |
string |
Resultat av slutförande. |
finish_reason |
string |
Anledningen till att modellen slutade generera token: - stop : modellen träffade en naturlig stopppunkt eller en angivet stoppsekvens. - length : om maximalt antal token har nåtts. - content_filter : När RAI modereras och CMP tvingar moderering. - content_filter_error : ett fel under modereringen och kunde inte fatta beslut om svaret. - null : API-svaret pågår fortfarande eller är ofullständigt. |
logprobs |
object |
Loggannolikorna för de genererade token i utdatatexten. |
Objektet usage
är en ordlista med följande fält.
Nyckel | Type | Värde |
---|---|---|
prompt_tokens |
integer |
Antal token i prompten. |
completion_tokens |
integer |
Antal token som genererats i slutförandet. |
total_tokens |
integer |
Totalt antal token. |
Objektet logprobs
är en ordlista med följande fält:
Nyckel | Type | Värde |
---|---|---|
text_offsets |
array av integers |
Positionen eller indexet för varje token i slutförandeutdata. |
token_logprobs |
array av float |
Markerad logprobs från ordlistan i top_logprobs matrisen. |
tokens |
array av string |
Valda token. |
top_logprobs |
array av dictionary |
Matris med ordlista. I varje ordlista är nyckeln token och värdet är prob. |
Exempel
{
"id": "12345678-1234-1234-1234-abcdefghijkl",
"object": "text_completion",
"created": 217877,
"choices": [
{
"index": 0,
"text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
"logprobs": null,
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 7,
"total_tokens": 23,
"completion_tokens": 16
}
}
Chatt-API
Använd metoden POST
för att skicka begäran till /v1/chat/completions
vägen:
Begär
POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json
Schema för begäran
Payload är en JSON-formaterad sträng som innehåller följande parametrar:
Nyckel | Typ | Standardvärde | beskrivning |
---|---|---|---|
messages |
string |
Ingen standard. Det här värdet måste anges. | Meddelandet eller historiken för meddelanden som ska användas för att fråga modellen. |
stream |
boolean |
False |
Direktuppspelning gör att de genererade token kan skickas som databaserade serverutskickade händelser när de blir tillgängliga. |
max_tokens |
integer |
16 |
Det maximala antalet token som ska genereras i slutförandet. Tokenantalet för din fråga plus max_tokens får inte överskrida modellens kontextlängd. |
top_p |
float |
1 |
Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av tokens med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas. Vi rekommenderar vanligtvis att du top_p ändrar eller temperature , men inte båda. |
temperature |
float |
1 |
Provtagningstemperaturen som ska användas, mellan 0 och 2. Högre värden innebär att modellexemplen i större utsträckning distribuerar token. Noll betyder girig sampling. Vi rekommenderar att du ändrar detta eller top_p , men inte båda. |
n |
integer |
1 |
Hur många slutföranden som ska genereras för varje fråga. Obs! Eftersom den här parametern genererar många slutföranden kan den snabbt förbruka din tokenkvot. |
stop |
array |
null |
Sträng eller en lista med strängar som innehåller ordet där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen. |
best_of |
integer |
1 |
Genererar best_of slutföranden på serversidan och returnerar den "bästa" (den med den lägsta loggens sannolikhet per token). Resultat kan inte strömmas. När det används med n kontrollerar du antalet kandidatavslut och n anger hur många som ska returneras–best_of måste vara större än n best_of . Obs! Eftersom den här parametern genererar många slutföranden kan den snabbt förbruka din tokenkvot. |
logprobs |
integer |
null |
Ett tal som anger att loggens sannolikheter ska inkluderas på de logprobs mest sannolika token och valda token. Om logprobs det till exempel är 10 returnerar API:et en lista över de 10 mest sannolika token. API:et returnerar alltid logprob för den samplade token, så det kan finnas upp till logprobs +1 element i svaret. |
presence_penalty |
float |
null |
Tal mellan -2.0 och 2.0. Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen. |
ignore_eos |
boolean |
True |
Om du vill ignorera EOS-token och fortsätta generera token när EOS-token har genererats. |
use_beam_search |
boolean |
False |
Om du vill använda strålsökning i stället för sampling. I sådana fall best_of måste vara större än 1 och temperature måste vara 0 . |
stop_token_ids |
array |
null |
Lista över ID:er för token som, när de genereras, stoppar ytterligare tokengenerering. De returnerade utdata innehåller stopptoken såvida inte stopptoken är särskilda token. |
skip_special_tokens |
boolean |
null |
Om du vill hoppa över särskilda token i utdata. |
Objektet messages
har följande fält:
Nyckel | Type | Värde |
---|---|---|
content |
string |
Innehållet i meddelandet. Innehåll krävs för alla meddelanden. |
role |
string |
Rollen som meddelandets författare. En av system , user eller assistant . |
Exempel
Brödtext
{
"messages":
[
{
"role": "system",
"content": "You are a helpful assistant that translates English to Italian."},
{
"role": "user",
"content": "Translate the following sentence from English to Italian: I love programming."
}
],
"temperature": 0.8,
"max_tokens": 512,
}
Svarsschema
Svarsnyttolasten är en ordlista med följande fält.
Nyckel | Typ | Beskrivning |
---|---|---|
id |
string |
En unik identifierare för slutförandet. |
choices |
array |
Listan över slutförandeval som modellen genererade för indatameddelandena. |
created |
integer |
Unix-tidsstämpeln (i sekunder) för när slutförandet skapades. |
model |
string |
Den model_id som används för slutförande. |
object |
string |
Objekttypen, som alltid chat.completion är . |
usage |
object |
Användningsstatistik för slutförandebegäran. |
Dricks
I strömningsläget är för varje segment av svar finish_reason
alltid null
, förutom från den sista som avslutas med en nyttolast [DONE]
. I varje choices
objekt ändras nyckeln för messages
av delta
.
Objektet choices
är en ordlista med följande fält.
Nyckel | Typ | Beskrivning |
---|---|---|
index |
integer |
Valindex. När best_of > 1 kanske indexet i den här matrisen inte är i ordning och kanske inte är 0 till n-1 . |
messages eller delta |
string |
Chattens slutförande resulterar i messages objekt. När strömningsläget används delta används nyckeln. |
finish_reason |
string |
Anledningen till att modellen slutade generera token: - stop : modellen träffade en naturlig stopppunkt eller en angivet stoppsekvens. - length : om maximalt antal token har nåtts. - content_filter : När RAI modereras och CMP tvingar moderering - content_filter_error : ett fel under modereringen och kunde inte fatta beslut om svaret - null : API-svaret pågår fortfarande eller är ofullständigt. |
logprobs |
object |
Loggannolikorna för de genererade token i utdatatexten. |
Objektet usage
är en ordlista med följande fält.
Nyckel | Type | Värde |
---|---|---|
prompt_tokens |
integer |
Antal token i prompten. |
completion_tokens |
integer |
Antal token som genererats i slutförandet. |
total_tokens |
integer |
Totalt antal token. |
Objektet logprobs
är en ordlista med följande fält:
Nyckel | Type | Värde |
---|---|---|
text_offsets |
array av integers |
Positionen eller indexet för varje token i slutförandeutdata. |
token_logprobs |
array av float |
Markerad logprobs från ordlistan i top_logprobs matrisen. |
tokens |
array av string |
Valda token. |
top_logprobs |
array av dictionary |
Matris med ordlista. I varje ordlista är nyckeln token och värdet är prob. |
Exempel
Nedan finns ett exempel på svar:
{
"id": "12345678-1234-1234-1234-abcdefghijkl",
"object": "chat.completion",
"created": 2012359,
"model": "",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"message": {
"role": "assistant",
"content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
}
}
],
"usage": {
"prompt_tokens": 10,
"total_tokens": 40,
"completion_tokens": 30
}
}
Distribuera Meta Llama-modeller till hanterad beräkning
Förutom att distribuera med den hanterade tjänsten betala per användning kan du även distribuera Meta Llama 3.1-modeller till hanterad beräkning i Azure Machine Learning-studio. När du distribueras till hanterad beräkning kan du välja all information om infrastrukturen som kör modellen, inklusive de virtuella datorer som ska användas och antalet instanser för att hantera den belastning du förväntar dig. Modeller som distribueras till hanterad beräkning förbrukar kvoter från din prenumeration. Följande modeller från 3.1-versionsvågen är tillgängliga för hanterad beräkning:
Meta-Llama-3.1-8B-Instruct
(FT stöds)Meta-Llama-3.1-70B-Instruct
(FT stöds)Meta-Llama-3.1-8B
(FT stöds)Meta-Llama-3.1-70B
(FT stöds)Llama Guard 3 8B
Prompt Guard
Skapa en ny distribution
Följ dessa steg för att distribuera en modell som Meta-Llama-3.1-70B-Instruct
till en hanterad beräkning i Azure Machine Learning-studio.
Välj den arbetsyta där du vill distribuera modellen.
Välj den modell som du vill distribuera från studions modellkatalog.
Du kan också initiera distributionen genom att gå till din arbetsyta och välja Skapa slutpunkter>för hanterat dataflöde.>
På modellens översiktssida väljer du Distribuera och sedan Hanterad beräkning utan Azure AI Content Safety.
På sidan Distribuera med Azure AI Content Safety (förhandsversion) väljer du Hoppa över Azure AI Content Safety så att du kan fortsätta att distribuera modellen med hjälp av användargränssnittet.
Dricks
I allmänhet rekommenderar vi att du väljer Aktivera Azure AI Content Safety (rekommenderas) för distribution av Meta Llama-modellen. Det här distributionsalternativet stöds för närvarande endast med Python SDK och det sker i en notebook-fil.
Välj Fortsätt.
Dricks
Om du inte har tillräckligt med kvot i det valda projektet kan du använda alternativet Jag vill använda delad kvot och jag bekräftar att slutpunkten tas bort om 168 timmar.
Välj den virtuella datorn och antalet instanser som du vill tilldela distributionen.
Välj om du vill skapa den här distributionen som en del av en ny slutpunkt eller en befintlig. Slutpunkter kan vara värdar för flera distributioner samtidigt som resurskonfigurationen är exklusiv för var och en av dem. Distributioner under samma slutpunkt delar slutpunkts-URI:n och dess åtkomstnycklar.
Ange om du vill aktivera insamling av slutsatsdragningsdata (förhandsversion).
Ange om du vill aktivera paketmodell (förhandsversion).
Välj distribuera. Efter en liten stund öppnas slutpunktens informationssida.
Vänta tills slutpunkten har skapats och distributionen har slutförts. Det här steget kan ta några minuter.
Välj sidan Förbruka för slutpunkten för att hämta kodexempel som du kan använda för att använda den distribuerade modellen i ditt program.
Mer information om hur du distribuerar modeller till hanterad beräkning med hjälp av studion finns i Distribuera grundmodeller till slutpunkter för slutsatsdragning.
Använd Meta Llama-modeller som distribuerats till hanterad beräkning
Mer information om hur du anropar Meta Llama 3-modeller som distribuerats till hanterad beräkning finns i modellens kort i Azure Machine Learning-studio modellkatalog. Varje modells kort har en översiktssida som innehåller en beskrivning av modellen, exempel för kodbaserad slutsatsdragning, finjustering och modellutvärdering.
Ytterligare slutsatsdragningsexempel
Paket | Exempelnotebook |
---|---|
CLI med curl- och Python-webbbegäranden | webrequests.ipynb |
OpenAI SDK (experimentell) | openaisdk.ipynb |
LangChain | langchain.ipynb |
LiteLLM SDK | litellm.ipynb |
Kostnad och kvoter
Kostnads- och kvotöverväganden för Meta Llama 3.1-modeller som distribueras som ett serverlöst API
Meta Llama 3.1-modeller som distribueras som ett serverlöst API erbjuds av Meta via Azure Marketplace och integreras med Azure Machine Learning-studio för användning. Du hittar priser för Azure Marketplace när du distribuerar eller finjusterar modeller.
Varje gång en arbetsyta prenumererar på ett visst modellerbjudande från Azure Marketplace skapas en ny resurs för att spåra de kostnader som är kopplade till förbrukningen. Samma resurs används för att spåra kostnader som är kopplade till slutsatsdragning och finjustering. Flera mätare är dock tillgängliga för att spåra varje scenario oberoende av varandra.
Mer information om hur du spårar kostnader finns i Övervaka kostnader för modeller som erbjuds via Azure Marketplace.
Kvot hanteras per distribution. Varje distribution har en hastighetsgräns på 400 000 token per minut och 1 000 API-begäranden per minut. För närvarande begränsar vi dock en distribution per modell per projekt. Kontakta Microsoft Azure Support om de aktuella hastighetsgränserna inte räcker för dina scenarier.
Kostnads- och kvotöverväganden för Meta Llama 3.1-modeller distribuerad hanterad beräkning
För distribution och slutsatsdragning av Meta Llama 3.1-modeller med hanterad beräkning använder du kärnkvoten för virtuella datorer (VM) som är tilldelad till din prenumeration per region. När du registrerar dig för Azure AI Studio får du en standard VM-kvot för flera VM-familjer som är tillgängliga i regionen. Du kan fortsätta att skapa distributioner tills du når din kvotgräns. När du når den här gränsen kan du begära en kvotökning.
Innehållsfiltrering
Modeller som distribueras som ett serverlöst API skyddas av Azure AI-innehållssäkerhet. När du distribueras till hanterad beräkning kan du välja bort den här funktionen. Med Azure AI-innehållssäkerhet aktiverat passerar både prompten och slutförandet genom en uppsättning klassificeringsmodeller som syftar till att identifiera och förhindra utdata från skadligt innehåll. Systemet för innehållsfiltrering (förhandsversion) identifierar och vidtar åtgärder för specifika kategorier av potentiellt skadligt innehåll i både inkommande prompter och slutföranden av utdata. Läs mer om Azure AI Content Safety.