Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Schwerpunkt von Site Reliability Engineering (SRE) liegt auf der Erstellung zuverlässiger, skalierbarer Systeme durch Automatisierung und proaktives Management. Der Azure SRE-Agent bringt diese Prinzipien zu Ihren von Azure gehosteten Anwendungen, indem ein KI-basiertes Tool bereitgestellt wird, das die Unterstützung von Produktionscloudumgebungen unterstützt. Der SRE-Agent hilft Ihnen, schnell und effektiv auf Vorfälle zu reagieren und die Mühsal der manuellen Verwaltung von Produktionsumgebungen zu mindern. Der Agent verwendet die Logikfunktionen großer Sprachmodelle (LLMs), um die Protokolle und Metriken zu identifizieren, die für eine schnelle Analyse der Ursache und zur Problemminderung erforderlich sind. Der Azure SRE-Agent bringt Ihnen eine bessere Dienstbetriebszeit und verringerte Betriebskosten.
Agents haben Zugriff auf jede Ressource innerhalb der Ressourcengruppen, die dem Agent zugeordnet sind. Daher, Agenten:
Ressourcenaktivität kontinuierlich auswerten und aktive Ressourcen überwachen
Proaktive Benachrichtigungen zu fehlerhaften oder instabilen Apps senden
Azure SRE Agent ist auch in Azure Monitor Alerts and PagerDuty integriert, um erweiterte Benachrichtigungslösungen zu unterstützen.
Hinweis
Das SRE-Agent-Feature befindet sich in der öffentlichen Vorschau. Um sich für die Warteliste zu registrieren, füllen Sie die SRE-Agent-Anwendung aus.
Mit einem SRE-Agent stimmen Sie den produktspezifischen ergänzenden Nutzungsbedingungen für Microsoft Azure Previews zu.
Wichtigste Funktionen
Azure SRE Agent bietet mehrere wichtige Features, die die Zuverlässigkeit und Leistung Ihrer Azure-Ressourcen verbessern:
Begrüßungsthread: Wenn Sie Ihren Agent zum ersten Mal erstellen, wird ein neuer Thread erstellt, der die anfängliche Analyse Ihrer Dienste bereitstellt. Die Umgebungsanalyse erstellt eine Momentaufnahme aller vom Agent verwalteten Ressourcen. Darüber hinaus generiert der Agent eine Liste der Anwendungen in den verwalteten Ressourcengruppen.
Tägliche Threads: Täglich erstellt der Agent einen Ressourcenbericht, der den Status und den Status der Dienste in Ihren verwalteten Ressourcengruppen zusammenfasst.
Tooling: Abfrage- und Betriebsunterstützung über Azure CLI und Kubectl.
Datenquellen: Zugriff auf Azure Resource Manager-APIs und Azure Monitor-Metrikdatenquellen.
Vorfallverwaltung: Diagnostizieren Sie Vorfälle, indem Sie direkt mit dem Agent chatten oder eine Vorfallverwaltungsplattform mit dem Agent verbinden. Reagieren Sie automatisch auf Azure Monitor-Warnungen oder PagerDuty-Vorfälle mit anfänglicher Analyse.
Proaktive Überwachung: Kontinuierliche 24x7-Ressourcenüberwachung mit Echtzeitwarnungen für potenzielle Probleme.
Automatisierte Behebung: Automatische Erkennung und Behebung häufiger Probleme, Verringerung der Ausfallzeiten und Verbesserung der Ressourcengesundheit. Während Agents versuchen, in Ihrem Auftrag zu arbeiten, erfordert die gesamte Automatisierung Ihre Genehmigung.
Bewährte Methoden für die Infrastruktur: Identifizieren und Korrigieren von Ressourcen, die nicht die bewährten Methoden für Sicherheit einhalten, sowie Unterstützung bei Updates.
Beschleunigt die Ursachenanalyse: Diagnostizieren Sie die Ursachen von App-Problemen, indem Sie Metriken und Protokolle analysieren und Gegenmaßnahmen vorschlagen.
Ressourcenvisualisierung: Umfassende Ansichten Ihrer Ressourcenabhängigkeiten und des Gesundheitsstatus.
Mitigationsunterstützung: Der SRE-Agent kann die Anwendungskonfiguration und abhängige Dienste konfigurieren und verwalten. Bei Codeproblemen stellt der Agent Stacktraces bereit und kann ein GitHub-Problem erstellen, um das Problem zu beheben. Die folgenden Elemente beschreiben dienstspezifische Features des Agents:
Azure App Service: Zurücksetzen der Bereitstellung, Skalieren von Ressourcen nach oben/unten, Anwendungsneustarts.
Azure-Container-Apps: Zurücksetzen der Bereitstellung, Skalieren von Ressourcen nach oben/unten und Anwendungsneustarts.
Azure Kubernetes Service: Starten Sie Pods/Bereitstellungen neu, führen Sie ein Rollback der Bereitstellungen auf frühere Überarbeitungen aus, skalieren Sie Ressourcen nach oben/unten, und patchen Sie Ressourcendefinitionen.
Berichte
Ein SRE-Agent arbeitet daran, Ihre Azure-Dienste proaktiv zu überwachen und zu verwalten. Jeden Tag erstellt Ihr Agent tägliche Ressourcenberichte, die Einblicke in die Integrität und den Status Ihrer Anwendungen liefern.
Zu den Berichten gehören:
Vorfallzusammenfassung: Generiert Informationen zu Vorfällen, die vom SRE-Agent am vorherigen Tag ausgelöst wurden. Kategorien umfassen: aktiv, abgemildert oder aufgelöst.
Leistung und Integrität der Anwendungsgruppe: Wichtige Metriken für jede Anwendungsgruppe zur Bewertung der Systemstabilität und Leistung. Zu den Metriken gehören: Verfügbarkeit, CPU-Auslastung und Arbeitsspeicherauslastung.
Aktionszusammenfassung: Zusammenfassungen wichtiger Details und Erkenntnisse, die für die Integrität und Wartung Ihrer Azure-Ressourcen relevant sind.
Szenarien
Szenario | Mögliche Ursache | Entschärfung für Agents |
---|---|---|
Ausgefallene Anwendung | ▪ Anwendungscodeprobleme: Bugs oder Fehler im Anwendungscode können zu Abstürzen oder Nichtreagieren führen. ▪ Ungültige Bereitstellung: Falsche Konfigurationen oder fehlerhafte Bereitstellungen können dazu führen, dass die Anwendung heruntergeht. ▪ Hohe CPU-/Arbeitsspeicher-/Threadprobleme: Die Ressourcenauslastung aufgrund hoher CPU-, Arbeitsspeicher- oder Threadauslastung kann sich auf die Anwendungsleistung auswirken. |
Der SRE-Agent kann diese Probleme erkennen und umsetzbare Erkenntnisse oder Korrekturen bereitstellen. Beispielsweise kann eine Abnahme der Web-App-Verfügbarkeit festgestellt werden, der mit einem kürzlichen Slotaustausch zusammenfällt, und als der erster Schritt zur Entschärfung kann empfohlen werden, die Slots wieder zu tauschen. |
Fehler beim Pullen von Containerimages | ▪ Bildverfügbarkeit: Das angeforderte Bild ist möglicherweise nicht verfügbar oder fehlt. ▪ Netzwerkkonnektivität: Netzwerkprobleme können die Verbindung mit der Container-App unterbrechen. ▪ Probleme bei der Registrierungskonnektivität: Probleme beim Herstellen einer Verbindung mit der Containerregistrierung können Image-Pulls verhindern. |
Der SRE-Agent kann Fehler beim Herunterladen von Container-Images erkennen und detaillierte Diagnosen bereitstellen. Es kann Lösungen empfehlen, z. B. das Zurücksetzen auf die letzte bekannte fehlerfreie Überarbeitung und das Aktualisieren des Bildverweises. |
Ein Agent kann detaillierte Informationen zu verschiedenen Aspekten Ihrer Apps und Ressourcen bereitstellen. Die folgenden Beispiele veranschaulichen die Arten von Fragen, die Sie ihrem Agenten stellen können:
- Was können Sie mir helfen?
- Warum funktioniert meine Anwendung nicht?
- Mit welchen Diensten ist meine Ressource verbunden?
- Können Sie bewährte Methoden für meine Ressource bereitstellen?
- Was ist die CPU- und Speicherauslastung meiner App?
Darüber hinaus finden Sie hier einige Eingabeaufforderungen, die Sie verwenden können, um Ihnen bei der Interaktion mit Ihrem Agenten zu helfen:
- Welche Apps haben Dapr aktiviert?
- Replikate meiner Containeranwendung auflisten
- Welche Apps haben die Diagnoseprotokollierung aktiviert?
- Geben Sie mir für jedes Speicherkonto eine individuelle Heatmap.
- Welche Version meiner Container-App ist aktuell aktiv?
- Welche bewährten Methoden sollte meine App befolgen?
- Was ist die Ingress-Konfiguration für meine Containeranwendung?
- Gibt es Staging-Slots, die für diese Webanwendung konfiguriert sind?
- Welche Containerimages werden von jedem meiner Container-Apps verwendet?
- Auflisten aller Ressourcengruppen, die Sie für alle Abonnements verwalten.
- Zeichnen Sie eine Heatmap der Speicherlatenzen über die letzten 14 Tage für Speicherkonten.
- Zeigen Sie mir eine Visualisierung der Antwortzeiten für Container-Apps für die letzte Woche an.
- Listen Sie [Container-Apps/Web-Apps/etc.] auf, die Sie für alle Abonnements verwalten.
- Visualisieren Sie die Aufteilung von Container-Apps, Web-Apps und AKS-Clustern, die über alle Abonnements hinweg verwaltet werden, als Kreisdiagramm.
Vorschauzugriff
Der Zugriff auf einen SRE-Agent ist nur als Vorschau verfügbar. Um sich für den Zugriff zu registrieren, füllen Sie die SRE-Agent-Anwendung aus.