Share via


Meta Llama-modellen implementeren met Azure Machine Learning-studio

In dit artikel leert u meer over de Meta Llama-modellen (LLM's). U leert ook hoe u Azure Machine Learning-studio kunt gebruiken om modellen uit deze set te implementeren op serverloze API's met betalen per gebruik facturering of beheerde berekening.

Belangrijk

Lees meer over de aankondiging van Meta Llama 3-modellen die nu beschikbaar zijn op Azure AI Model Catalog: Microsoft Tech Community Blog en van metaaankondigingsblog.

Meta Llama 3 modellen en tools zijn een verzameling vooraf getrainde en verfijnde tekstmodellen, variërend van 8 miljard tot 70 miljard parameters. De Meta Llama-modelfamilie bevat ook verfijnde versies die zijn geoptimaliseerd voor gebruiksvoorbeelden voor dialoog met versterking van menselijke feedback (RLHF), genaamd Meta-Llama-3-8B-Instruct en Meta-Llama-3-70B-Instruct. Bekijk de volgende GitHub-voorbeelden om integraties te verkennen met LangChain, LiteLLM, OpenAI en de Azure-API.

Belangrijk

Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview-versie wordt geleverd zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt.

Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Meta Llama-modellen implementeren als een serverloze API

Bepaalde modellen in de modelcatalogus kunnen worden geïmplementeerd als een serverloze API met betalen per gebruik-facturering en bieden een manier om ze als API te gebruiken zonder ze te hosten in uw abonnement, terwijl de bedrijfsbeveiligings- en nalevingsorganisaties nodig blijven. Voor deze implementatieoptie is geen quotum van uw abonnement vereist.

Meta Llama-modellen worden geïmplementeerd als een serverloze API met betalen per gebruik-facturering, worden aangeboden door Meta AI via Microsoft Azure Marketplace en ze kunnen meer gebruiksvoorwaarden en prijzen toevoegen.

Azure Marketplace-modelaanbiedingen

De volgende modellen zijn beschikbaar in Azure Marketplace voor Meta Llama-modellen wanneer deze worden geïmplementeerd als een serverloze API met betalen per gebruik-facturering:

Als u een ander model wilt implementeren, implementeert u het in plaats daarvan in beheerde berekeningen .

Vereisten

  • Een Azure-abonnement met een geldige betalingswijze. Gratis of proefversie van Azure-abonnementen werkt niet. Als u geen Azure-abonnement hebt, maakt u eerst een betaald Azure-account .

  • Een Azure Machine Learning-werkruimte en een rekenproces. Als u deze niet hebt, gebruikt u de stappen in de quickstart: artikel Werkruimtebronnen maken om deze te maken.

    Belangrijk

    Het implementatieaanbod voor het betalen per gebruik-model is alleen beschikbaar in werkruimten die zijn gemaakt in regio's VS - oost 2 en Zweden - centraal voor Meta Llama 3-modellen.

  • Op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC) wordt gebruikt om toegang te verlenen tot bewerkingen in Azure Machine Learning. Als u de stappen in dit artikel wilt uitvoeren, moet aan uw gebruikersaccount de rol eigenaar of inzender voor het Azure-abonnement zijn toegewezen. U kunt ook een aangepaste rol aan uw account toewijzen met de volgende machtigingen:

    • In het Azure-abonnement—als u de werkruimte wilt abonneren op de Azure Marketplace-aanbieding, één keer voor elke werkruimte, per aanbieding:

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • In de resourcegroep—om de SaaS-resource te maken en te gebruiken:

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • In de werkruimte—als u eindpunten wilt implementeren (de azure Machine Learning-gegevenswetenschapperrol bevat deze machtigingen al):

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    Zie Beheer toegang tot een Azure Machine Learning-werkruimte voor meer informatie over machtigingen.

Een nieuwe implementatie maken

Een implementatie maken:

  1. Ga naar Azure Machine Learning-studio.

  2. Selecteer de werkruimte waarin u uw modellen wilt implementeren. Als u het implementatieaanbod voor betalen per gebruik-model wilt gebruiken, moet uw werkruimte deel uitmaken van de regio VS - oost 2 of Zweden - centraal .

  3. Kies het model dat u wilt implementeren vanuit de modelcatalogus.

    U kunt ook de implementatie initiëren door naar uw werkruimte te gaan en serverloze eindpunten voor eindpunten>>te selecteren.

  4. Selecteer implementeren en vervolgens serverloze API met Azure AI Content Safety op de overzichtspagina van het model.

  5. Selecteer in de implementatiewizard de koppeling naar azure Marketplace-voorwaarden voor meer informatie over de gebruiksvoorwaarden. U kunt ook het tabblad Details van marketplace-aanbiedingen selecteren voor meer informatie over prijzen voor het geselecteerde model.

  6. Als dit de eerste keer is dat u het model in de werkruimte implementeert, moet u zich abonneren op uw werkruimte voor het specifieke aanbod (bijvoorbeeld Meta-Llama-3-70B) vanuit Azure Marketplace. Voor deze stap is vereist dat uw account beschikt over de machtigingen voor het Azure-abonnement en de resourcegroepmachtigingen die worden vermeld in de vereisten. Elke werkruimte heeft een eigen abonnement op de specifieke Azure Marketplace-aanbieding, waarmee u uitgaven kunt beheren en bewaken. Selecteer Abonneren en implementeren.

    Notitie

    Als u een werkruimte abonneert op een bepaalde Azure Marketplace-aanbieding (in dit geval Llama-3-70B), moet uw account toegang hebben tot inzender of eigenaar op abonnementsniveau waar het project wordt gemaakt. U kunt ook een aangepaste rol toewijzen aan uw gebruikersaccount met de machtigingen voor het Azure-abonnement en de resourcegroepmachtigingen die worden vermeld in de vereisten.

  7. Nadat u zich hebt geregistreerd voor de werkruimte voor het specifieke Azure Marketplace-aanbod, hoeven volgende implementaties van dezelfde aanbieding in dezelfde werkruimte zich niet opnieuw te abonneren. Daarom hoeft u niet over de machtigingen op abonnementsniveau te beschikken voor volgende implementaties. Als dit scenario van toepassing is op u, selecteert u Doorgaan om te implementeren.

  8. Geef de implementatie een naam. Deze naam maakt deel uit van de URL van de implementatie-API. Deze URL moet uniek zijn in elke Azure-regio.

  9. Selecteer Implementeren. Wacht totdat de implementatie is voltooid en u wordt omgeleid naar de pagina met serverloze eindpunten.

  10. Selecteer het eindpunt om de pagina Details te openen.

  11. Selecteer het tabblad Testen om te beginnen met interactie met het model.

  12. U kunt ook de doel-URL en de geheime sleutel noteren om de implementatie aan te roepen en voltooiingen te genereren.

  13. U kunt altijd de details, URL en toegangssleutels van het eindpunt vinden door naar serverloze eindpunten van werkruimte-eindpunten>> te navigeren.

Zie Kosten- en quotumoverwegingen voor Meta Llama-modellen die zijn geïmplementeerd als een serverloze API voor facturering voor Meta Llama-modellen die zijn geïmplementeerd als een serverloze API.

Meta Llama-modellen als een service gebruiken

Modellen die als een service zijn geïmplementeerd, kunnen worden gebruikt met behulp van de chat- of voltooiings-API, afhankelijk van het type model dat u hebt geïmplementeerd.

  1. Selecteer serverloze eindpunten> in de werkruimte.

  2. Zoek en selecteer de implementatie die u hebt gemaakt.

  3. Kopieer de doel-URL en de sleuteltokenwaarden.

  4. Maak een API-aanvraag op basis van het type model dat u hebt geïmplementeerd.

    Zie de naslagsectie voor meer informatie over het gebruik van de API's.

Naslaginformatie voor Meta Llama-modellen heeft een serverloze API geïmplementeerd

Llama-modellen accepteren zowel de Azure AI-modeldeductie-API op de route /chat/completions of een Llama Chat-API op /v1/chat/completions. Op dezelfde manier kunnen tekstvoltooiingen worden gegenereerd met behulp van de Azure AI-modeldeductie-API op de route /completions of een Llama-voltooiings-API op /v1/completions

Het API-schema voor Azure AI-modeldeductie vindt u in de naslaginformatie voor chatvoltooiingen en er kan een OpenAPI-specificatie worden verkregen van het eindpunt zelf.

Voltooiings-API

Gebruik de methode POST om de aanvraag naar de /v1/completions route te verzenden:

Aanvragen

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Aanvraagschema

Payload is een tekenreeks met JSON-indeling die de volgende parameters bevat:

Sleutel Type Default Beschrijving
prompt string Geen standaardwaarde. Deze waarde moet worden opgegeven. De prompt om naar het model te verzenden.
stream boolean False Met streaming kunnen de gegenereerde tokens worden verzonden als gebeurtenissen die alleen door de server worden verzonden wanneer ze beschikbaar zijn.
max_tokens integer 16 Het maximum aantal tokens dat moet worden gegenereerd tijdens de voltooiing. Het tokenaantal van uw prompt plus max_tokens kan de contextlengte van het model niet overschrijden.
top_p float 1 Een alternatief voor steekproeven met temperatuur, zogenaamde kernsampling, waarbij het model rekening houdt met de resultaten van de tokens met top_p waarschijnlijkheidsmassa. 0,1 betekent dus dat alleen de tokens die de top 10% kansdichtheid omvatten, worden beschouwd. Over het algemeen raden we aan om te top_p wijzigen of temperature, maar niet beide.
temperature float 1 De te gebruiken steekproeftemperatuur tussen 0 en 2. Hogere waarden betekenen de modelvoorbeelden breder de distributie van tokens. Nul betekent hebzuchtige steekproeven. We raden u aan dit te wijzigen of top_p, maar niet beide.
n integer 1 Hoeveel voltooiingen moeten worden gegenereerd voor elke prompt.
Opmerking: Omdat deze parameter veel voltooiingen genereert, kan deze snel uw tokenquotum gebruiken.
stop array null Tekenreeks of een lijst met tekenreeksen die het woord bevatten waarin de API stopt met het genereren van verdere tokens. De geretourneerde tekst bevat de stopvolgorde niet.
best_of integer 1 Genereert best_of voltooiingen aan de serverzijde en retourneert de 'beste' (de waarde met de laagste logboekkans per token). Resultaten kunnen niet worden gestreamd. Wanneer deze worden gebruikt n, best_of bepaalt u het aantal voltooiingen van de kandidaat en n geeft u op hoeveel te retourneren: best_of moet groter zijn dan n.
Opmerking: Omdat deze parameter veel voltooiingen genereert, kan deze snel uw tokenquotum gebruiken.
logprobs integer null Een getal dat aangeeft dat de logboekkans op de logprobs meest waarschijnlijke tokens en de gekozen tokens moet worden opgenomen. Als dit bijvoorbeeld logprobs 10 is, retourneert de API een lijst met de 10 meest waarschijnlijke tokens. de API retourneert altijd de logprob van het voorbeeldtoken, dus er kunnen maximaal logprobs+1 elementen in het antwoord zijn.
presence_penalty float null Getal tussen -2.0 en 2.0. Positieve waarden bestraffen nieuwe tokens op basis van of ze tot nu toe worden weergegeven in de tekst, waardoor de kans op het model groter wordt om over nieuwe onderwerpen te praten.
ignore_eos boolean True Of u het EOS-token moet negeren en tokens wilt blijven genereren nadat het EOS-token is gegenereerd.
use_beam_search boolean False Hiermee wordt aangegeven of de zoekfunctie in plaats van steekproeven moet worden gebruikt. In dat geval best_of moet dit groter zijn dan 1 en temperature moet het zijn 0.
stop_token_ids array null Lijst met id's voor tokens die, wanneer ze worden gegenereerd, verdere tokengeneratie stoppen. De geretourneerde uitvoer bevat de stoptokens, tenzij de stoptokens speciale tokens zijn.
skip_special_tokens boolean null Of speciale tokens in de uitvoer moeten worden overgeslagen.

Opmerking

Tekst

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Antwoordschema

De nettolading van het antwoord is een woordenlijst met de volgende velden.

Sleutel Type Description
id string Een unieke id voor de voltooiing.
choices array De lijst met voltooiingskeuzen die het model heeft gegenereerd voor de invoerprompt.
created integer De Unix-tijdstempel (in seconden) van het moment waarop de voltooiing is gemaakt.
model string De model_id gebruikt voor voltooiing.
object string Het objecttype, dat altijd text_completionis.
usage object Gebruiksstatistieken voor de voltooiingsaanvraag.

Tip

In de streamingmodus is voor elk deel van het antwoord finish_reason altijd null, behalve van de laatste die wordt beëindigd door een nettolading [DONE].

Het choices object is een woordenlijst met de volgende velden.

Sleutel Type Description
index integer Keuzeindex. Wanneer best_of> 1, is de index in deze matrix mogelijk niet in orde en is deze mogelijk niet 0 tot n-1.
text string Voltooiingsresultaat.
finish_reason string De reden waarom het model geen tokens meer genereert:
- stop: het model raakt een natuurlijk stoppunt of een opgegeven stopreeks.
- length: als het maximum aantal tokens is bereikt.
- content_filter: Wanneer RAI moderatie en CMP dwingt.
- content_filter_error: een fout tijdens het toezicht en kon geen beslissing nemen over het antwoord.
- null: API-antwoord wordt nog steeds uitgevoerd of onvolledig.
logprobs object De logboekkans van de gegenereerde tokens in de uitvoertekst.

Het usage object is een woordenlijst met de volgende velden.

Sleutel Type Weergegeven als
prompt_tokens integer Aantal tokens in de prompt.
completion_tokens integer Het aantal tokens dat is gegenereerd tijdens de voltooiing.
total_tokens integer Totaal aantal tokens.

Het logprobs object is een woordenlijst met de volgende velden:

Sleutel Type Weergegeven als
text_offsets array van integers De positie of index van elk token in de voltooiingsuitvoer.
token_logprobs array van float Geselecteerd logprobs uit woordenlijst in top_logprobs matrix.
tokens array van string Geselecteerde tokens.
top_logprobs array van dictionary Matrix van woordenlijst. In elke woordenlijst is de sleutel het token en de waarde is de prob.

Opmerking

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

Chat-API

Gebruik de methode POST om de aanvraag naar de /v1/chat/completions route te verzenden:

Aanvragen

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Aanvraagschema

Payload is een tekenreeks met JSON-indeling die de volgende parameters bevat:

Sleutel Type Default Beschrijving
messages string Geen standaardwaarde. Deze waarde moet worden opgegeven. Het bericht of de geschiedenis van berichten die moeten worden gebruikt om het model te vragen.
stream boolean False Met streaming kunnen de gegenereerde tokens worden verzonden als gebeurtenissen die alleen door de server worden verzonden wanneer ze beschikbaar zijn.
max_tokens integer 16 Het maximum aantal tokens dat moet worden gegenereerd tijdens de voltooiing. Het tokenaantal van uw prompt plus max_tokens kan de contextlengte van het model niet overschrijden.
top_p float 1 Een alternatief voor steekproeven met temperatuur, zogenaamde kernsampling, waarbij het model rekening houdt met de resultaten van de tokens met top_p waarschijnlijkheidsmassa. 0,1 betekent dus dat alleen de tokens die de top 10% kansdichtheid omvatten, worden beschouwd. Over het algemeen raden we aan om te top_p wijzigen of temperature, maar niet beide.
temperature float 1 De te gebruiken steekproeftemperatuur tussen 0 en 2. Hogere waarden betekenen de modelvoorbeelden breder de distributie van tokens. Nul betekent hebzuchtige steekproeven. We raden u aan dit te wijzigen of top_p, maar niet beide.
n integer 1 Hoeveel voltooiingen moeten worden gegenereerd voor elke prompt.
Opmerking: Omdat deze parameter veel voltooiingen genereert, kan deze snel uw tokenquotum gebruiken.
stop array null Tekenreeks of een lijst met tekenreeksen die het woord bevatten waarin de API stopt met het genereren van verdere tokens. De geretourneerde tekst bevat de stopvolgorde niet.
best_of integer 1 Genereert best_of voltooiingen aan de serverzijde en retourneert de 'beste' (de waarde met de laagste logboekkans per token). Resultaten kunnen niet worden gestreamd. Wanneer gebruikt, nbest_of bepaalt u het aantal voltooiingen van de kandidaat en n geeft u op hoeveel te retourneren,best_of moet groter zijn dan n.
Opmerking: Omdat deze parameter veel voltooiingen genereert, kan deze snel uw tokenquotum gebruiken.
logprobs integer null Een getal dat aangeeft dat de logboekkans op de logprobs meest waarschijnlijke tokens en de gekozen tokens moet worden opgenomen. Als dit bijvoorbeeld logprobs 10 is, retourneert de API een lijst met de 10 meest waarschijnlijke tokens. de API retourneert altijd de logprob van het voorbeeldtoken, dus er kunnen maximaal logprobs+1 elementen in het antwoord zijn.
presence_penalty float null Getal tussen -2.0 en 2.0. Positieve waarden bestraffen nieuwe tokens op basis van of ze tot nu toe worden weergegeven in de tekst, waardoor de kans op het model groter wordt om over nieuwe onderwerpen te praten.
ignore_eos boolean True Of u het EOS-token moet negeren en tokens wilt blijven genereren nadat het EOS-token is gegenereerd.
use_beam_search boolean False Hiermee wordt aangegeven of de zoekfunctie in plaats van steekproeven moet worden gebruikt. In dat geval best_of moet dit groter zijn dan 1 en temperature moet het zijn 0.
stop_token_ids array null Lijst met id's voor tokens die, wanneer ze worden gegenereerd, verdere tokengeneratie stoppen. De geretourneerde uitvoer bevat de stoptokens, tenzij de stoptokens speciale tokens zijn.
skip_special_tokens boolean null Of speciale tokens in de uitvoer moeten worden overgeslagen.

Het messages object heeft de volgende velden:

Sleutel Type Weergegeven als
content string De inhoud van het bericht. Inhoud is vereist voor alle berichten.
role string De rol van de auteur van het bericht. Een van system, userof assistant.

Opmerking

Tekst

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Antwoordschema

De nettolading van het antwoord is een woordenlijst met de volgende velden.

Sleutel Type Description
id string Een unieke id voor de voltooiing.
choices array De lijst met voltooiingskeuzen die het model heeft gegenereerd voor de invoerberichten.
created integer De Unix-tijdstempel (in seconden) van het moment waarop de voltooiing is gemaakt.
model string De model_id gebruikt voor voltooiing.
object string Het objecttype, dat altijd chat.completionis.
usage object Gebruiksstatistieken voor de voltooiingsaanvraag.

Tip

In de streamingmodus is voor elk deel van het antwoord finish_reason altijd null, behalve van de laatste die wordt beëindigd door een nettolading [DONE]. In elk choices object wordt de sleutel voor messages gewijzigd door delta.

Het choices object is een woordenlijst met de volgende velden.

Sleutel Type Description
index integer Keuzeindex. Wanneer best_of> 1, is de index in deze matrix mogelijk niet in orde en is dit 0 mogelijk niet.n-1
messages of delta string Voltooiing van chat resulteert in messages object. Wanneer de streamingmodus wordt gebruikt, delta wordt de sleutel gebruikt.
finish_reason string De reden waarom het model geen tokens meer genereert:
- stop: het model raakt een natuurlijk stoppunt of een meegeleverde stopreeks.
- length: als het maximum aantal tokens is bereikt.
- content_filter: Wanneer RAI moderatie en CMP dwingt
- content_filter_error: een fout tijdens het toezicht en kon geen beslissing nemen over het antwoord
- null: API-antwoord wordt nog steeds uitgevoerd of onvolledig.
logprobs object De logboekkans van de gegenereerde tokens in de uitvoertekst.

Het usage object is een woordenlijst met de volgende velden.

Sleutel Type Weergegeven als
prompt_tokens integer Aantal tokens in de prompt.
completion_tokens integer Het aantal tokens dat is gegenereerd tijdens de voltooiing.
total_tokens integer Totaal aantal tokens.

Het logprobs object is een woordenlijst met de volgende velden:

Sleutel Type Weergegeven als
text_offsets array van integers De positie of index van elk token in de voltooiingsuitvoer.
token_logprobs array van float Geselecteerd logprobs uit woordenlijst in top_logprobs matrix.
tokens array van string Geselecteerde tokens.
top_logprobs array van dictionary Matrix van woordenlijst. In elke woordenlijst is de sleutel het token en de waarde is de prob.

Opmerking

Hier volgt een voorbeeld van een respons:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Meta Llama-modellen implementeren voor beheerde compute

Naast de implementatie met de beheerde service betalen per gebruik, kunt u ook Llama 3-modellen implementeren op beheerde berekeningen in Azure Machine Learning-studio. Wanneer deze is geïmplementeerd voor beheerde berekeningen, kunt u alle details selecteren over de infrastructuur waarop het model wordt uitgevoerd, inclusief de virtuele machines die moeten worden gebruikt en het aantal exemplaren dat moet worden verwerkt voor de belasting die u verwacht. Modellen die zijn geïmplementeerd voor beheerde berekeningen verbruiken quotum van uw abonnement. Alle modellen in de Meta Llama-familie kunnen worden geïmplementeerd voor beheerde berekeningen.

Een nieuwe implementatie maken

Volg deze stappen om een model te implementeren, bijvoorbeeld Llama-3-7B-Instruct naar een realtime-eindpunt in Azure Machine Learning-studio.

  1. Selecteer de werkruimte waarin u het model wilt implementeren.

  2. Kies het model dat u wilt implementeren vanuit de modelcatalogus van de studio.

    U kunt ook de implementatie initiëren door naar uw werkruimte te gaan en realtime eindpunten>> maken te selecteren.

  3. Selecteer op de overzichtspagina van het model Implementeren en vervolgens Managed Compute zonder Azure AI Content Safety.

  4. Selecteer op de pagina Implementeren met Azure AI Content Safety (preview) de optie Overslaan van Azure AI-inhoudsveiligheid , zodat u het model kunt blijven implementeren met behulp van de gebruikersinterface.

    Tip

    Over het algemeen wordt u aangeraden Azure AI Content Safety inschakelen (aanbevolen) te selecteren voor de implementatie van het Meta Llama-model. Deze implementatieoptie wordt momenteel alleen ondersteund met behulp van de Python SDK en vindt plaats in een notebook.

  5. Selecteer Doorgaan.

    Tip

    Als u onvoldoende quotum beschikbaar hebt in het geselecteerde project, kunt u de optie gebruiken die ik wil gebruiken voor gedeeld quotum en ik bevestig dat dit eindpunt over 168 uur wordt verwijderd.

  6. Selecteer de virtuele machine en het aantal exemplaren dat u wilt toewijzen aan de implementatie.

  7. Selecteer of u deze implementatie wilt maken als onderdeel van een nieuw eindpunt of een bestaand eindpunt. Eindpunten kunnen meerdere implementaties hosten terwijl resourceconfiguratie exclusief blijft voor elk van deze implementaties. Implementaties onder hetzelfde eindpunt delen de eindpunt-URI en de bijbehorende toegangssleutels.

  8. Geef aan of u het verzamelen van gegevens deductie wilt inschakelen (preview).

  9. Geef aan of u Pakketmodel (preview) wilt inschakelen.

  10. Selecteer Implementeren. Na enkele ogenblikpen wordt de pagina Details van het eindpunt geopend.

  11. Wacht tot het maken en implementeren van het eindpunt is voltooid. Deze stap kan enkele minuten duren.

  12. Selecteer de pagina Verbruik van het eindpunt om codevoorbeelden te verkrijgen die u kunt gebruiken om het geïmplementeerde model in uw toepassing te gebruiken.

Zie Basismodellen implementeren op eindpunten voor deductie voor meer informatie over het implementeren van modellen voor beheerde berekeningen met behulp van de studio.

Meta Llama-modellen gebruiken die zijn geïmplementeerd voor beheerde compute

Zie de kaart van het model in Azure Machine Learning-studio modelcatalogus voor naslaginformatie over het aanroepen van Meta Llama 3-modellen die zijn geïmplementeerd op realtime-eindpunten. De kaart van elk model heeft een overzichtspagina met een beschrijving van het model, voorbeelden voor op code gebaseerde deductie, afstemming en modelevaluatie.

Kosten en quota

Kosten- en quotumoverwegingen voor Meta Llama-modellen die zijn geïmplementeerd als een serverloze API

Meta Llama-modellen die zijn geïmplementeerd als een serverloze API, worden aangeboden door Meta via Azure Marketplace en geïntegreerd met Azure Machine Learning-studio voor gebruik. U kunt prijzen voor Azure Marketplace vinden bij het implementeren of verfijnen van modellen.

Telkens wanneer een werkruimte zich abonneert op een bepaald modelaanbod van Azure Marketplace, wordt er een nieuwe resource gemaakt om de kosten bij te houden die zijn gekoppeld aan het verbruik. Dezelfde resource wordt gebruikt om kosten bij te houden die zijn gekoppeld aan deductie en afstemming; er zijn echter meerdere meters beschikbaar om elk scenario onafhankelijk bij te houden.

Zie Kosten bewaken voor modellen die worden aangeboden via Azure Marketplace voor meer informatie over het bijhouden van kosten.

Een schermopname van verschillende resources die overeenkomen met verschillende modelaanbiedingen en de bijbehorende meters.

Het quotum wordt beheerd per implementatie. Elke implementatie heeft een frequentielimiet van 200.000 tokens per minuut en 1000 API-aanvragen per minuut. Momenteel beperken we echter één implementatie per model per project. Neem contact op met De ondersteuning van Microsoft Azure als de huidige frequentielimieten niet voldoende zijn voor uw scenario's.

Kosten- en quotumoverwegingen voor Meta Llama-modellen geïmplementeerde beheerde compute

Voor implementatie en deductie van Meta Llama-modellen met beheerde rekenkracht verbruikt u het kernquotum voor virtuele machines (VM)-kernen dat per regio aan uw abonnement is toegewezen. Wanneer u zich registreert voor Azure Machine Learning-studio, ontvangt u een standaard-VM-quotum voor verschillende VM-families die beschikbaar zijn in de regio. U kunt implementaties blijven maken totdat u de quotumlimiet bereikt. Zodra u deze limiet hebt bereikt, kunt u een quotumverhoging aanvragen.

Inhoud filteren

Modellen die zijn geïmplementeerd als een serverloze API, worden beveiligd door azure AI-inhoudsveiligheid. Wanneer deze optie is geïmplementeerd voor beheerde berekeningen, kunt u zich afmelden voor deze mogelijkheid. Als de veiligheid van Azure AI-inhoud is ingeschakeld, passeren zowel de prompt als de voltooiing een ensemble van classificatiemodellen die zijn gericht op het detecteren en voorkomen van de uitvoer van schadelijke inhoud. Het inhoudsfiltersysteem detecteert en onderneemt actie op specifieke categorieën van mogelijk schadelijke inhoud in zowel invoerprompts als uitvoervoltooiingen. Meer informatie over Azure AI Content Safety.