Delen via


Online eindpunten bewaken

Azure Machine Learning maakt gebruik van integratie met Azure Monitor om metrische gegevens en logboeken voor online-eindpunten bij te houden en te bewaken. U kunt metrische gegevens weergeven in grafieken, vergelijken tussen eindpunten en implementaties, vastmaken aan dashboards van Azure Portal, waarschuwingen configureren, query's uitvoeren vanuit logboektabellen en pushlogboeken naar ondersteunde doelen. U kunt Application Insights ook gebruiken om gebeurtenissen uit gebruikerscontainers te analyseren.

  • Metrische gegevens: Voor metrische gegevens op eindpuntniveau, zoals latentie van aanvragen, aanvragen per minuut, nieuwe verbindingen per seconde en netwerkbytes, kunt u inzoomen om details weer te geven op implementatieniveau of statusniveau. Metrische gegevens op implementatieniveau, zoals CPU-/GPU-gebruik en geheugen- of schijfgebruik, kunnen ook worden ingezoomd op exemplaarniveau. Met Azure Monitor kunt u deze metrische gegevens bijhouden in grafieken en dashboards en waarschuwingen instellen voor verdere analyse.

  • Logboeken: U kunt metrische gegevens verzenden naar de Log Analytics-werkruimte, waar u query's kunt uitvoeren op de logboeken met behulp van de Kusto-querysyntaxis. U kunt ook metrische gegevens verzenden naar Azure Storage-accounts en/of Event Hubs voor verdere verwerking. Daarnaast kunt u speciale logboektabellen gebruiken voor online-eindpuntgerelateerde gebeurtenissen, verkeer en consolelogboeken (containerlogboeken). Kusto-query maakt complexe analyse en samenvoeging van meerdere tabellen mogelijk.

  • Application Insights: Gecureerde omgevingen omvatten integratie met Application Insights en u kunt deze integratie in- of uitschakelen wanneer u een online-implementatie maakt. Ingebouwde metrische gegevens en logboeken worden verzonden naar Application Insights en u kunt de ingebouwde functies van Application Insights (zoals Live metrics, Transaction Search, Failures en Performance) gebruiken voor verdere analyse.

In dit artikel leert u het volgende:

  • De juiste methode kiezen om metrische gegevens en logboeken weer te geven en bij te houden
  • Metrische gegevens voor uw online-eindpunt weergeven
  • Een dashboard maken voor uw metrische gegevens
  • Een waarschuwing voor metrische gegevens maken
  • Logboeken voor uw online-eindpunt weergeven
  • Application Insights gebruiken om metrische gegevens en logboeken bij te houden

Vereisten

  • Implementeer een online-eindpunt voor Azure Machine Learning.
  • U moet ten minste lezertoegang hebben op het eindpunt.

Metrische gegevens voor

U kunt pagina's met metrische gegevens weergeven voor online-eindpunten of -implementaties in Azure Portal. Een eenvoudige manier om deze pagina's met metrische gegevens te openen, is via koppelingen die beschikbaar zijn in de Azure Machine Learning-studio gebruikersinterface, met name op het tabblad Details van de pagina van een eindpunt. Als u deze koppelingen volgt, gaat u naar de exacte pagina met metrische gegevens in Azure Portal voor het eindpunt of de implementatie. U kunt ook naar Azure Portal gaan om te zoeken naar de pagina met metrische gegevens voor het eindpunt of de implementatie.

Voor toegang tot de pagina's met metrische gegevens via koppelingen die beschikbaar zijn in de studio:

  1. Ga naar de Azure Machine Learning Studio.

  2. Selecteer in de linkernavigatiebalk de pagina Eindpunten .

  3. Selecteer een eindpunt door op de naam ervan te klikken.

  4. Selecteer Metrische gegevens weergeven in de sectie Kenmerken van het eindpunt om de pagina met metrische gegevens van het eindpunt te openen in Azure Portal.

  5. Selecteer Metrische gegevens weergeven in de sectie voor elke beschikbare implementatie om de pagina met metrische gegevens van de implementatie in Azure Portal te openen.

    Een schermopname die laat zien hoe u toegang krijgt tot de metrische gegevens van een eindpunt en implementatie vanuit de gebruikersinterface van Studio.

Ga als volgende te werk om rechtstreeks vanuit Azure Portal toegang te krijgen tot metrische gegevens:

  1. Meld u aan bij het Azure-portaal.

  2. Navigeer naar het online-eindpunt of de implementatieresource.

    Online-eindpunten en -implementaties zijn ARM-resources (Azure Resource Manager) die u kunt vinden door naar hun eigen resourcegroep te gaan. Zoek naar het resourcetype Machine Learning Online-eindpunt en de online-implementatie van Machine Learning.

  3. Selecteer metrische gegevens in de linkerkolom.

Beschikbare metrische gegevens

Afhankelijk van de resource die u selecteert, zijn de metrische gegevens die u ziet anders. Metrische gegevens hebben een ander bereik voor online-eindpunten en onlineimplementaties.

Metrische gegevens op eindpuntbereik

  • Verkeer
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
RequestsPerMinute Tellen Het aantal aanvragen dat binnen een minuut naar Het eindpunt is verzonden Gemiddeld Implementatie, ModelStatusCode, StatusCode, StatusCodeClass Waarschuw me wanneer ik = 0 transacties in het systeem heb <
RequestLatency Milliseconden Het volledige tijdsinterval dat nodig is om een aanvraag te beantwoorden Gemiddeld Implementatie Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P50 Milliseconden De aanvraaglatentie op het 50e percentiel dat is geaggregeerd door alle latentiewaarden voor aanvragen die gedurende een periode van 60 seconden zijn verzameld Gemiddeld Implementatie Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P90 Milliseconden De aanvraaglatentie op het 90e percentiel dat is geaggregeerd door alle latentiewaarden van aanvragen die zijn verzameld gedurende een periode van 60 seconden Gemiddeld Implementatie Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P95 Milliseconden De aanvraaglatentie op het 95e percentiel dat is geaggregeerd door alle latentiewaarden van aanvragen die gedurende een periode van 60 seconden zijn verzameld Gemiddeld Implementatie Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P99 Milliseconden De aanvraaglatentie op het 99e percentiel dat is geaggregeerd door alle latentiewaarden van aanvragen die gedurende een periode van 60 seconden zijn verzameld Gemiddeld Implementatie Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
  • Netwerk
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
Netwerkbytes Bytes per seconde De bytes per seconde die voor het eindpunt worden geleverd Gemiddeld - -
ConnectionsActive Tellen Het totale aantal gelijktijdige TCP-verbindingen dat actief is vanaf clients Gemiddeld - -
NewConnectionsPerSecond Tellen Het gemiddelde aantal nieuwe TCP-verbindingen per seconde dat vanaf clients tot stand is gebracht Gemiddeld - -
  • Modelgegevensverzameling
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
DataCollectionEventsPerMinute Tellen Het aantal gegevensverzamelingsgebeurtenissen dat per minuut wordt verwerkt Gemiddeld Implementatie, type -
DataCollectionErrorsPerMinute Tellen Het aantal gegevensverzamelingsgebeurtenissen dat per minuut is verwijderd Gemiddeld Implementatie, type, reden -

U kunt bijvoorbeeld splitsen in de implementatiedimensie om de aanvraaglatentie van verschillende implementaties onder een eindpunt te vergelijken.

Bandbreedtebeperking

Bandbreedte wordt beperkt als de quotumlimieten worden overschreden voor beheerde online-eindpunten. Zie het artikel over limieten voor online-eindpunten voor meer informatie over limieten. Om te bepalen of aanvragen worden beperkt:

  • De meetwaarde 'Netwerkbytes' bewaken
  • De antwoordtrailers hebben de velden: ms-azureml-bandwidth-request-delay-ms en ms-azureml-bandwidth-response-delay-ms. De waarden van de velden zijn de vertragingen, in milliseconden, van de bandbreedtebeperking. Zie Problemen met bandbreedtelimiet voor meer informatie.

Metrische gegevens bij implementatiebereik

  • Verzadiging
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
CpuUtilizationPercentage Procent Hoeveel percentage cpu is gebruikt Minimun, Maximum, Gemiddelde InstanceId Waarschuw mij wanneer % capaciteit 75% gebruikt >
CpuMemoryUtilizationPercentage Procent Hoeveel procent van het geheugen is gebruikt Minimun, Maximum, Gemiddelde InstanceId
Schijfgebruik Procent Hoeveel schijfruimte is gebruikt Minimun, Maximum, Gemiddelde InstanceId, Schijf
GpuUtilizationPercentage Procent Percentage GPU-gebruik op een exemplaar: gebruik wordt met intervallen van één minuut gerapporteerd Minimun, Maximum, Gemiddelde InstanceId
GpuMemoryUtilizationPercentage Procent Percentage gpu-geheugengebruik op een exemplaar: gebruik wordt gerapporteerd met intervallen van één minuut Minimun, Maximum, Gemiddelde InstanceId
GpuEnergyJoules Joule Interval energie in Joules op een GPU-knooppunt - Energie wordt gerapporteerd met intervallen van één minuut Minimun, Maximum, Gemiddelde InstanceId
  • Beschikbaarheid
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
DeploymentCapacity Tellen Het aantal exemplaren in de implementatie Minimum, Maximum, Gemiddelde InstanceId, State Waarschuw mij wanneer de % beschikbaarheid van mijn service lager is dan 100%
  • Verkeer
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
RequestsPerMinute Tellen Het aantal aanvragen dat binnen een minuut naar de online-implementatie wordt verzonden Gemiddeld StatusCode Waarschuw me wanneer ik = 0 transacties in het systeem heb <
RequestLatency_P50 Milliseconden De gemiddelde P50-aanvraaglatentie geaggregeerd door alle latentiewaarden voor aanvragen die zijn verzameld over de geselecteerde periode Gemiddeld - Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P90 Milliseconden De gemiddelde P90-aanvraaglatentie geaggregeerd door alle latentiewaarden voor aanvragen die zijn verzameld over de geselecteerde periode Gemiddeld - Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P95 Milliseconden De gemiddelde P95-aanvraaglatentie geaggregeerd door alle latentiewaarden voor aanvragen die zijn verzameld over de geselecteerde periode Gemiddeld - Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
RequestLatency_P99 Milliseconden De gemiddelde P99-aanvraaglatentie geaggregeerd door alle aangevraagde latentiewaarden die zijn verzameld over de geselecteerde periode Gemiddeld - Waarschuw mij wanneer de gemiddelde latentie > 2 sec.
  • Modelgegevensverzameling
Metrische id Eenheid Beschrijving Aggregatiesmethode Splittable By Voorbeeld van waarschuwingen voor metrische gegevens
DataCollectionEventsPerMinute Tellen Het aantal gegevensverzamelingsgebeurtenissen dat per minuut wordt verwerkt Gemiddeld InstanceId, Type -
DataCollectionErrorsPerMinute Tellen Het aantal gegevensverzamelingsgebeurtenissen dat per minuut is verwijderd Gemiddeld InstanceId, type, reden -

U kunt bijvoorbeeld het CPU- en/of geheugengebruik vergelijken tussen verschilexemplaren voor een online-implementatie.

Dashboards en waarschuwingen maken

Met Azure Monitor kunt u dashboards en waarschuwingen maken op basis van metrische gegevens.

Dashboards maken en query's visualiseren

U kunt aangepaste dashboards maken en metrische gegevens uit meerdere bronnen in Azure Portal visualiseren, inclusief de metrische gegevens voor uw online-eindpunt. Zie Dashboards met behulp van logboekgegevens en Dashboards met toepassingsgegevens voor meer informatie over het maken van dashboards en het visualiseren van query's.

Waarschuwingen maken

U kunt ook aangepaste waarschuwingen maken om u op de hoogte te stellen van belangrijke statusupdates voor uw online-eindpunt:

  1. Selecteer rechtsboven op de pagina met metrische gegevens de optie Nieuwe waarschuwingsregel.

    Schermopname met de knop 'Nieuwe waarschuwingsregel' omgeven door een rood vak.

  2. Selecteer een voorwaardenaam die moet worden opgegeven wanneer uw waarschuwing moet worden geactiveerd.

    Schermopname van de knop Signaallogica configureren, omgeven door een rood vak.

  3. Selecteer Actiegroepen>toevoegen om op te geven wat er moet gebeuren wanneer uw waarschuwing wordt geactiveerd.

  4. Kies Waarschuwingsregel maken om het maken van de waarschuwing te voltooien.

Zie Waarschuwingsregels voor Azure Monitor maken voor meer informatie.

Automatische schaalaanpassing inschakelen op basis van metrische gegevens

U kunt automatische schaalaanpassing van implementaties inschakelen met behulp van metrische gegevens met behulp van de gebruikersinterface of code. Wanneer u code (CLI of SDK) gebruikt, kunt u metrische id's gebruiken die worden vermeld in de tabel met beschikbare metrische gegevens in voorwaarde voor het activeren van automatisch schalen. Zie Online-eindpunten automatisch schalen voor meer informatie.

Logboeken

Er zijn drie logboeken die kunnen worden ingeschakeld voor online-eindpunten:

  • AmlOnlineEndpointTrafficLog: u kunt ervoor kiezen om verkeerslogboeken in te schakelen als u de gegevens van uw aanvraag wilt controleren. Hieronder ziet u enkele gevallen:

    • Als het antwoord niet 200 is, controleert u de waarde van de kolom ResponseCodeReason om te zien wat er is gebeurd. Controleer ook de reden in de sectie HTTPS-statuscodes van het artikel Problemen met online-eindpunten oplossen.

    • U kunt de antwoordcode en de reactiereden van uw model controleren vanuit de kolom ModelStatusCode en ModelStatusReason.

    • U wilt de duur van de aanvraag controleren, zoals de totale duur, de duur van de aanvraag/reactie en de vertraging die wordt veroorzaakt door de netwerkbeperking. U kunt dit controleren vanuit de logboeken om de uitsplitsingslatentie te zien.

    • Als u wilt controleren hoeveel aanvragen of mislukte aanvragen onlangs zijn. U kunt de logboeken ook inschakelen.

  • AmlOnlineEndpointConsoleLog: bevat logboeken die de containers uitvoeren naar de console. Hieronder ziet u enkele gevallen:

    • Als de container niet kan worden gestart, kan het consolelogboek handig zijn voor foutopsporing.

    • Bewaak het gedrag van containers en zorg ervoor dat alle aanvragen correct worden verwerkt.

    • Schrijf aanvraag-id's in het consolelogboek. Als u lid wordt van de aanvraag-id, de AmlOnlineEndpointConsoleLog en AmlOnlineEndpointTrafficLog in de Log Analytics-werkruimte, kunt u een aanvraag traceren vanaf het netwerkinvoerpunt van een online-eindpunt naar de container.

    • U kunt dit logboek ook gebruiken voor prestatieanalyse bij het bepalen van de tijd die het model nodig heeft om elke aanvraag te verwerken.

  • AmlOnlineEndpointEventLog: bevat gebeurtenisinformatie over de levenscyclus van de container. Op dit moment geven we informatie over de volgende typen gebeurtenissen:

    Naam Bericht
    Uitstel Back-off opnieuw opstarten mislukte container
    Trok Containerinstallatiekopieën '<IMAGE_NAME>' die al aanwezig zijn op de computer
    Dodelijk De statustest van de containerdeductieserver is mislukt, wordt opnieuw opgestart
    Gemaakt Containerinstallatiekopieën ophalen gemaakt
    Gemaakt Containerdeductieserver gemaakt
    Gemaakt Containermodelkoppeling gemaakt
    LivenessProbeFailed Livenesstest mislukt: <FAILURE_CONTENT>
    ReadinessProbeFailed Gereedheidstest is mislukt: <FAILURE_CONTENT>
    Gestart Containerinstallatiekopieën ophalen gestart
    Gestart Containerdeductieserver gestart
    Gestart Containermodelkoppeling gestart
    Dodelijk Containerdeductieserver stoppen
    Dodelijk Containermodelkoppeling stoppen

Logboeken in- of uitschakelen

Belangrijk

Logboekregistratie maakt gebruik van Azure Log Analytics. Als u momenteel geen Log Analytics-werkruimte hebt, kunt u er een maken met behulp van de stappen in Een Log Analytics-werkruimte maken in Azure Portal.

  1. Ga in Azure Portal naar de resourcegroep die uw eindpunt bevat en selecteer vervolgens het eindpunt.

  2. Selecteer diagnostische instellingen in de sectie Bewaking aan de linkerkant van de pagina en voeg vervolgens instellingen toe.

  3. Selecteer de logboekcategorieën die u wilt inschakelen, selecteer Verzenden naar Log Analytics-werkruimte en selecteer vervolgens de Log Analytics-werkruimte die u wilt gebruiken. Voer ten slotte de naam van een diagnostische instelling in en selecteer Opslaan.

    Schermopname van het dialoogvenster diagnostische instellingen.

    Belangrijk

    Het kan een uur duren voordat de verbinding met de Log Analytics-werkruimte is ingeschakeld. Wacht een uur voordat u verdergaat met de volgende stappen.

  4. Verzend scoreaanvragen naar het eindpunt. Deze activiteit moet vermeldingen maken in de logboeken.

  5. Selecteer logboeken aan de linkerkant van het scherm in de eigenschappen van het online-eindpunt of de Log Analytics-werkruimte.

  6. Sluit het dialoogvenster Query's dat automatisch wordt geopend en dubbelklik vervolgens op de AmlOnlineEndpointConsoleLog. Als u dit niet ziet, gebruikt u het zoekveld.

    Schermopname van de logboekquery's.

  7. Selecteer Uitvoeren.

    Schermopnamen van de resultaten na het uitvoeren van een query.

Voorbeeldquery's

U kunt voorbeeldquery's vinden op het tabblad Query's terwijl u logboeken bekijkt. Zoek naar onlineeindpunt om voorbeeldquery's te vinden.

Schermopname van de voorbeeldquery's.

Details van logboekkolom

De volgende tabellen bevatten details over de gegevens die in elk logboek zijn opgeslagen:

AmlOnlineEndpointTrafficLog

Eigenschappen Beschrijving
methode De aangevraagde methode van de client.
Pad Het aangevraagde pad van de client.
SubscriptionId De id van het machine learning-abonnement van het online-eindpunt.
AzureMLWorkspaceId De machine learning-werkruimte-id van het online-eindpunt.
AzureMLWorkspaceName De naam van de machine learning-werkruimte van het online-eindpunt.
EndpointName De naam van het online-eindpunt.
DeploymentName De naam van de online-implementatie.
Protocol Het protocol van de aanvraag.
ResponseCode De uiteindelijke antwoordcode die naar de client is geretourneerd.
ResponseCodeReason De laatste reden van de antwoordcode die is geretourneerd naar de client.
ModelStatusCode De antwoordstatuscode van het model.
ModelStatusReason De reden van de reactiestatus van het model.
RequestPayloadSize Het totale aantal bytes dat van de client is ontvangen.
ResponsePayloadSize Het totale aantal bytes dat naar de client is verzonden.
UserAgent De header van de gebruiker-agent van de aanvraag, inclusief opmerkingen, maar wordt afgekapt tot maximaal 70 tekens.
XRequestId De aanvraag-id die is gegenereerd door Azure Machine Learning voor interne tracering.
XMSClientRequestId De tracerings-id die door de client wordt gegenereerd.
TotalDurationMs Duur in milliseconden vanaf de begintijd van de aanvraag tot de laatste reactie-byte die naar de client is verzonden. Als de verbinding met de client is verbroken, wordt de verbinding van de begintijd naar de client verbroken.
RequestDurationMs Duur in milliseconden van de begintijd van de aanvraag tot de laatste byte van de aanvraag die van de client is ontvangen.
ResponseDurationMs Duur in milliseconden van de begintijd van de aanvraag tot de eerste reactie-byte die is gelezen uit het model.
RequestThrottlingDelayMs Vertraging in milliseconden in aanvraaggegevensoverdracht vanwege netwerkbeperking.
ResponseThrottlingDelayMs Vertraging in milliseconden in reactiegegevensoverdracht vanwege netwerkbeperking.

AmlOnlineEndpointConsoleLog

Eigenschappen Beschrijving
TimeGenerated De timestamp (UTC) van het moment waarop het logboek werd gegenereerd.
OperationName De bewerking die aan de logboekrecord is gekoppeld.
InstanceId De id van het exemplaar dat deze logboekrecord heeft gegenereerd.
DeploymentName De naam van de implementatie die is gekoppeld aan de logboekrecord.
ContainerName De naam van de container waarin het logboek is gegenereerd.
Bericht De inhoud van het logboek.

AmlOnlineEndpointEventLog

Eigenschappen Beschrijving
TimeGenerated De timestamp (UTC) van het moment waarop het logboek werd gegenereerd.
OperationName De bewerking die aan de logboekrecord is gekoppeld.
InstanceId De id van het exemplaar dat deze logboekrecord heeft gegenereerd.
DeploymentName De naam van de implementatie die is gekoppeld aan de logboekrecord.
Naam De naam van de gebeurtenis.
Bericht De inhoud van de gebeurtenis.

Application Insights gebruiken

Gecureerde omgevingen omvatten integratie met Application Insights en u kunt deze integratie in- of uitschakelen wanneer u een online-implementatie maakt. Ingebouwde metrische gegevens en logboeken worden verzonden naar Application Insights en u kunt de ingebouwde functies van Application Insights (zoals Live metrics, Transaction Search, Failures en Performance) gebruiken voor verdere analyse.

Zie Application Insights-overzicht voor meer informatie.

In de studio kunt u het tabblad Bewaking op de pagina van een online-eindpunt gebruiken om activiteitenmonitorgrafieken op hoog niveau te bekijken voor het beheerde online-eindpunt. Als u het tabblad Bewaking wilt gebruiken, moet u Diagnostische gegevens en gegevensverzameling van Application Insight inschakelen selecteren wanneer u uw eindpunt maakt.

Een schermopname van metrische gegevens op eindpuntniveau bewaken in de studio.