Användning av loggtoken, uppmaningar och slutföranden för LLM-API:er

I den här artikeln får du lära dig hur du konfigurerar Azure Monitor-loggning för LLM API-begäranden och svar i Azure API Management.

API Management-administratören kan använda LLM API-begärande- och svarsloggar tillsammans med API Management-gatewayloggar för scenarier som följande:

  • Beräkna användning för fakturering – Beräkna användningsstatistik för fakturering baserat på antalet token som förbrukas av varje program eller API-konsument (till exempel segmenterat efter prenumerations-ID eller IP-adress).

  • Inspektera meddelanden – Inspektera och analysera frågor och slutföranden för att hjälpa till med felsökning, granskning och modellutvärdering.

Läs mer om:

Förutsättningar

  • En Azure API Management-instans.
  • Ett hanterat API för LLM-chatten som är integrerat med Azure API Management. Till exempel Importera ett Microsoft Foundry-API.
  • Åtkomst till en Azure Log Analytics-arbetsyta.
  • Lämpliga behörigheter för att konfigurera diagnostikinställningar och åtkomstloggar i API Management.

Aktivera diagnostikinställning för LLM API-loggar

Aktivera en diagnostikinställning för loggbegäranden som gatewayen bearbetar för REST-API:er för stora språkmodeller. För varje begäran tar Azure Monitor emot data om tokenanvändning (prompttoken, slutförandetoken och totalt antal token), namnet på den modell som används och eventuellt begärande- och svarsmeddelandena (prompt och slutförande). Stora begäranden och svar delas upp i flera loggposter med sekvensnummer för senare återuppbyggnad om det behövs.

Följande är korta steg för att aktivera en diagnostikinställning som dirigerar LLM API-loggar till en Log Analytics-arbetsyta. Mer information finns i Aktivera diagnostikinställning för Azure Monitor-loggar.

  1. I Azure-portalen går du till din Azure API Management-instans.
  2. I den vänstra menyn går du till Övervakning och väljer Diagnostikinställningar>+ Lägg till diagnostikinställning.
  3. Konfigurera inställningen för att skicka AI-gatewayloggar till en Log Analytics-arbetsyta:
    • Under Loggar väljer du Loggar relaterade till generativ AI-gateway.
    • Under Målinformation väljer du Skicka till Log Analytics-arbetsyta.
  4. Granska eller konfigurera andra inställningar och gör ändringar om det behövs.
  5. Välj Spara.

Skärmbild av diagnostikinställningen för AI-gatewayloggar i portalen.

Aktivera loggning av begäranden eller svar för LLM API

Du kan aktivera diagnostikinställningar för alla API:er eller anpassa loggning för specifika API:er. Följande är korta steg för att logga både LLM-begäranden och svarsmeddelanden för ett API. Mer information finns i Ändra API-loggningsinställningar.

  1. I den vänstra menyn i API Management-instansen väljer du API:er > OCH sedan namnet på API:et.
  2. Välj fliken Inställningar i det övre fältet.
  3. Rulla ned till avsnittet Diagnostikloggar och välj fliken Azure Monitor .
  4. I Log LLM messages (Logga LLM-meddelanden) väljer du Aktiverad.
  5. Välj Loggprompter och ange en storlek i byte, till exempel 32768.
  6. Välj Loggslutningar och ange en storlek i byte, till exempel 32768.
  7. Granska andra inställningar och gör ändringar om det behövs. Välj Spara.

Skärmbild av aktivering av LLM-loggning för ett API i portalen.

Anmärkning

Om du aktiverar samling skickas LLM-begärande- eller svarsmeddelanden upp till 32 KB i storlek i en enda post. Meddelanden som är större än 32 KB delas upp och loggas i 32 KB-segment med sekvensnummer för senare återuppbyggnad. Begärandemeddelanden och svarsmeddelanden får inte överstiga 2 MB vardera.

Granska analysarbetsboken för LLM-API:er

Instrumentpanelen för Azure Monitor-baserad analys ger insikter om LLM API-användning och tokenförbrukning med hjälp av data aggregerade på en Log Analytics-arbetsyta. Läs mer om analys i API Management.

  1. I den vänstra menyn i DIN API Management-instans väljer du Övervakningsanalys>.
  2. Välj fliken Språkmodeller .
  3. Granska mått och visualiseringar för förbrukning av LLM API-token och begäranden i ett valt tidsintervall.

Skärmbild av analys för språkmodell-API:er i portalen.

Granska Azure Monitor-loggar för begäranden och svar

I loggen ApiManagementGatewayLlmLog finns information om LLM-begäranden och svar, inklusive tokenförbrukning, modelldistribution som används och annan information om specifika tidsintervall.

Begäranden och svar (inklusive segmenterade meddelanden för stora begäranden och svar) visas i separata loggposter som du kan korrelera med hjälp av fältet CorrelationId .

I granskningssyfte använder du en Kusto-fråga som liknar följande fråga för att ansluta varje begäran och svar i en enda post. Justera frågan så att den innehåller de fält som du vill spåra.

ApiManagementGatewayLlmLog
| extend RequestArray = parse_json(RequestMessages)
| extend ResponseArray = parse_json(ResponseMessages)
| mv-expand RequestArray
| mv-expand ResponseArray
| project
    CorrelationId,
    RequestContent = tostring(RequestArray.content),
    ResponseContent = tostring(ResponseArray.content)
| summarize
    Input = strcat_array(make_list(RequestContent), " . "),
    Output = strcat_array(make_list(ResponseContent), " . ")
    by CorrelationId
| where isnotempty(Input) and isnotempty(Output)

Skärmbild av frågeresultat för LLM-loggar i portalen.

Ladda upp data till Microsoft Foundry för modellutvärdering

Du kan exportera LLM-loggningsdata som en datauppsättning för modellutvärdering i Microsoft Foundry. Med modellutvärdering kan du utvärdera prestanda för dina generativa AI-modeller och program mot en testmodell eller datauppsättning med hjälp av inbyggda eller anpassade utvärderingsmått.

Så här använder du LLM-loggar som en datauppsättning för modellutvärdering:

  1. Anslut LLM-begärande- och svarsmeddelanden till en enda post för varje interaktion, som du ser i föregående avsnitt. Inkludera de fält som du vill använda för modellutvärdering.
  2. Exportera datamängden till CSV-format, som är kompatibelt med Microsoft Foundry.
  3. I Microsoft Foundry-portalen skapar du en ny utvärdering för att ladda upp och utvärdera datauppsättningen.

Mer information om hur du skapar och kör en modellutvärdering i Microsoft Foundry finns i Utvärdera generativa AI-modeller och program med hjälp av Microsoft Foundry.