Sichere autonome agentische KI-Systeme

Pfeilername: Überwachen und Erkennen von Bedrohungen
Mustername: Sichere agentische KI-Systeme

Kontext und Problem

Autonome agentische KI-Systeme können Tools planen, aufrufen, auf Daten zugreifen und Aktionen mit eingeschränktem menschlichem Eingreifen ausführen. Da die Autonomie zunimmt, werden die potenziellen Auswirkungen der Fehlausrichtung, des Missbrauchs und des Kompromisses erhöht.

Der Artikel "Companion Patterns & Practices " reduziert das Risiko für autonome agentische KI-Systeme und beschreibt die Design-, Sicherheits- und Governancerisiken, die durch agentisches Verhalten eingeführt werden. Dieses Muster verschiebt sich von der Risikoidentifikation in die Risikominderung, wobei sie sich auf die Kontrollen und Entwurfsentscheidungen konzentriert, die diese Risiken in der Praxis mindern.

Lösung

Die Sicherung agentischer Systeme erfordert eine tiefgreifende Verteidigungsstrategie , die davon ausgeht, dass Fehler auf einzelnen Ebenen auftreten und Systeme entwickelt werden, sodass kein einzelner Fehler zu inakzeptablem Schaden führt.

Steuerelemente innerhalb von Gegenmaßnahmenebenen

Modelschichtsteuerungselemente

Das Modell fungiert als Begründungsmodul des Agenten und beeinflusst, wie der Agent Anweisungen interpretiert, Aktionen plant und auf adversariale Eingaben reagiert. Verschiedene Modelle bieten unterschiedliche Funktionen und Sicherheitsfeatures, die die Ausgaben und Aktionen des Agenten beeinflussen. Das Auswählen eines geeigneten Modells hilft dabei, Fehlausrichtung, Fehler und unsichere Ergebnisse zu vermeiden.

Empfohlene Steuerelemente:

Beabsichtigte Modellauswahl: Wählen Sie Modelle aus, deren Grundfähigkeit, Weigerungsverhalten und Werkzeugeigenschaften den Autonomie- und Risikoprofilen des Agenten entsprechen. Verringert die Fehlausrichtung von Vorgängen und unsicheren Aktionen.
Modell-Lieferkettengovernance: Behandeln Sie Modelle als Sicherheitsabhängigkeiten, indem Sie Versionen nachverfolgen, Updates überprüfen und Änderungen vor der Bereitstellung überprüfen. Verringert die Kompromittierung der Lieferkette.
Auswertung und Red-Teaming: Testen Sie kontinuierlich Modelle auf agentische Gefahren wie Cross-Prompt-Injektion, Intentionsbruch und gefährliche Werkzeugauswahl. Mildert die Entführung von Agenten und unbeabsichtigte Aktionen.
Funktionsausrichtung: Vermeiden Sie überfähige Modelle, wenn einfachere oder eingeschränkte Modelle den Anforderungen des Systems entsprechen. Verringert die übermäßige Autonomie und den erhöhten Strahlradius.

Sicherheitssystemebenensteuerungen

Die Sicherheitssystemebene fängt Fehler zur Laufzeit ab, wenn Agents mit nicht vertrauenswürdigen Inhalten, Tools, APIs und Benutzern interagieren. Diese Schutzmaßnahmen bilden eine wesentliche Verteidigung gegen operative Risiken, einschließlich Agentenübernahme, schädliche Ergebnisse, vertrauliche Datenlecks und Laufzeitmissbrauch.

Empfohlene Steuerelemente:

Eingabe- und Ausgabefilterung: Erkennen und blockieren Sie schädliche, manipulative oder unsichere Eingaben und Ausgaben, einschließlich indirekter Eingabeaufforderungseinfügung. Verringert das Risiko von unerlaubter Übernahme von Agenten und Lecks vertraulicher Daten.
Agenten-Leitplanken: Erzwingen Sie die Einhaltung von Aufgaben und verhindern Sie während der Ausführung unsichere Toolaufrufe oder solche außerhalb des erlaubten Bereichs. Verringert unbeabsichtigte Aktionen und Missbrauch mit hoher Wirkung.
Protokollierung und Observierbarkeit: Erfassen Sie Agentpläne, Toolanrufe, Entscheidungen und Ergebnisse, um Überwachung, Reaktion auf Vorfälle und Verbesserungen zu unterstützen. Verringert Verständlichkeitsfehler und nicht erkannten Missbrauch.
Missbrauch und Anomalieerkennung: Überwachen Sie wiederholte Umgehungsversuche oder anomalische Verhaltensmuster. Mindert anhaltendes Scannen und heimliche Exfiltration von Daten.

Anwendungsschichtsteuerelemente

Die Anwendungsschicht definiert, wie der Agent erstellt wird, welche Aktionen ausgeführt werden können und wie Steuerelemente erzwungen werden. Hier werden Sicherheitsprinzipien zum erzwingbaren Systemverhalten.

Empfohlene Steuerelemente:

Agents als Microservices: Entwerfen Sie Agents wie Microservices mit isolierten Berechtigungen und eingeschränkten Toolzugriff. Verringert die Fehlausrichtung, den Strahlradius und vertrauliche Datenlecks.
Explizite Aktionsschemas: Definieren Sie zulässige Aktionen, erforderliche Eingaben, Risikostufen, Ausführungseinschränkungen und Protokollierungsanforderungen. Verringert unbeabsichtigte Aktionen und unsichere Toolaufrufe.
Deterministische Human-in-the-Loop (HITL): Erzwingen Sie die menschliche Überprüfung bei hochriskanten oder irreversiblen Aktionen durch Orchestratorlogik, statt durch Modellüberlegungen. Mildert Aufsichtskontrolllücken und Fehlausrichtung.
Design der geringsten Rechte und geringsten Aktionen: Beginnen Sie standardmäßig ohne zulässige Aktionen, und aktivieren Sie funktionen basierend auf Rolle und Risiko inkrementell. Weisen Sie jedem Agent eine eindeutige, überprüfbare Identität zu, um RBAC zu erzwingen. Verringert vertrauliche Datenlecks, Agenten-Ausbreitung und ein Übermaß an Berechtigungen.
Systemmeldungen als Verstärkung: Verwenden Sie strukturierte Systemanweisungen, um Rollen und Grenzen zu stärken, die immer durch deterministische Steuerelemente unterstützt werden. Entschärft Agenten-Entführer und Fehlausrichtung.

Positionierung von Layer-Kontrollen

Die Positionierungsebene beeinflusst, wie Menschen ein agentenbasiertes System verstehen, ihm vertrauen und sich auf es verlassen. Eine schlechte Positionierung kann auch dann ein Risiko darstellen, wenn technische Kontrollen stark sind.

Empfohlene Steuerelemente:

Klare Offenlegung: Machen Sie es explizit, wenn Benutzer mit einem autonomen KI-Agent interagieren. Verringert Transparenz- und Offenlegungsfehler.
Funktionstransparenz: Kommunizieren Sie, was der Agent tun kann und nicht, einschließlich Einschränkungen und Unsicherheiten. Vermeiden Sie es, Agenten als autoritativ oder unfehlbar darzustellen. Verringert unangemessene Abhängigkeiten.
Benutzersichtbare Grenzen: Aufzeigen geplanter Aktionen, Genehmigungen und Ergebnisse, damit Benutzer ungewöhnliches Verhalten erkennen können. Verringert Verständlichkeitsfehler.
Sichere UX-Muster: Stellen Sie sicher, dass Überprüfungs-, Genehmigungs- und Abschaltmechanismen zugänglich, sicher und geschützt sind. Verringert Missbrauch und Übermäßige Abhängigkeit.

Microsoft-Lösungen

In den obigen Steuerelementen wird beschrieben, was implementiert werden soll. Die folgenden Microsoft-Lösungen helfen bei der Operationalisierung dieser Gegenmaßnahmen über Identität, Governance, Laufzeiterzwingung und Erkennung hinweg.

Primäre Steuerungsebene

Microsoft Agent 365:
- Bietet zentralisierte Inventar-, Governance-Strukturen, Zugriffsrichtlinien und agentübergreifende Sichtbarkeit.
- Unterstützt: Verhinderung von Agent-Sprawl, Prinzip der minimalen Rechte und Governance. Unterstützt: Verhinderung von Agent-Sprawl, Prinzip der minimalen Berechtigungen, Governance.

Modellauswahl und -bewertung

Der Modellkatalog von Microsoft Foundry zum Auswerten und Auswählen von Modellen, die für den Anwendungsfall geeignet sind, einschließlich Sicherheits- und Sicherheitsgrundwerte.
Microsoft Foundrys AI Red Teaming Agent und Python Risk Identification Tool (PyRIT) für rotes Team und kontinuierliche Auswertung.

Sicherheitssystem und Laufzeitminderungen

Microsoft Foundry (Guardrails, Inhaltsfilter, Missbrauchsüberwachung)
- Erzwingt die Einhaltung von Aufgaben, filtert nicht vertrauenswürdige Eingaben und Ausgaben und erkennt Missbrauchsmuster.
- Unterstützt: Eingabeaufforderungsminderung, Leckageschutz.

Identität und Datenschutz

Microsoft Entra:
- Stellt Identitäts-, bedingte Zugriffs- und rollenbasierte Zugriffssteuerung für Agents bereit.
- Unterstützt: Prinzip der geringsten Privilegien, Zugriffskontrolle.
Microsoft Purview:
- Bietet Datenklassifizierung, Governance und Richtlinienerzwingung.
- Unterstützt: Schutz vertraulicher Daten.

UX-Design

Human AI Interaction (HAX) Toolkit für Offenlegung und humanzentrierte UX-Muster.
Secure by Design UX Toolkit für sichere UX-Muster

Erkennung und Reaktion (unterstützung)

Microsoft Defender und Microsoft Sentinel für die Verwaltung von Sicherheitsstatus, Signalkorrelation und Reaktion auf Vorfälle über Agentworkloads hinweg.
Azure Monitor und Application Insights zur Telemetrie und Beobachtbarkeit für das Verhalten und die Leistung von Agenten.

Leitlinien

Organisationen, die dieses Muster einführen möchten, können die folgenden aktionen erfordernden Methoden anwenden:

Praxiskategorie	Empfohlene Maßnahmen	Ressource
Steuerung für Tools, Agenten und Modelle	Onboarding von Agenten in Foundry mithilfe unterstützter Frameworks oder das Registrieren von benutzerdefinierten Agenten.	Microsoft Foundry Control Plane
Resilienz der Inhaltssicherheit und Einfügung von Eingabeaufforderungen	Filtern von Eingaben und Ausgaben; Behandeln abgerufener Inhalte als nicht vertrauenswürdig; Blockieren von indirekten Prompt-Injection.	Foundry-Content-Filterung und Schutzmechanismen für Eingabeaufforderungen
Aufgabentreue & Werkzeugsicherheit	Erzwingen von Tool-Zulassungslisten und deterministischer Überprüfung	Foundry Agent Leitplanken
KI-Teamerstellung	Kontinuierliches Testen auf Prompt-Injektion, Intent-Fehler, unsichere Toolauswahl und Datenleckagen	Findry AI Red Teaming Agent / PyRIT
Identität und Zugriff für Agents	Anwendung des Minimalprinzips der Berechtigung, bedingter Zugriff und Governancemanagement des Lebenszyklus	Microsoft Entra
Datenverwaltung und Compliance	Klassifizieren und Schützen vertraulicher Daten	Microsoft Purview
Verwaltung des Sicherheitsstatus	Bewerten von Konfigurationen und Sicherheitsrisiken	Microsoft Defender für Cloud
Erkennen von Missbrauch	Korrelation von Protokollen und Traces	Microsoft Sentinel

Ergebnisse

Vorteile

Agents arbeiten innerhalb definierter Absichten, Berechtigungen und Grenzen.
Risikoaktionen erfordern eine deterministische menschliche Genehmigung.
Das Agentverhalten ist feststellbar, überprüfbar und kann im Großen und Umfang geregelt werden.
Die Offenlegung vertraulicher Daten wird durch das Prinzip der minimalen Berechtigung und die Durchsetzung von Richtlinien reduziert.
Organisationen behalten die Sichtbarkeit und Kontrolle bei, wenn die Agent-Nutzung wächst.
Vertrauen basiert auf Transparenz, Rechenschaftspflicht und vorhersehbarem Verhalten.

Kompromisse

Zusätzliche Technische Anstrengungen sind erforderlich, um mehrstufige Steuerelemente zu implementieren.
Autonome Systeme führen zu architektur- und betriebstechnischer Komplexität.
Menschliche Aufsicht fügt Reibung zu risikoreichen Arbeitsabläufen hinzu.
Governance und Beobachtbarkeit erfordern nachhaltige operative Investitionen.

Wichtige Erfolgsfaktoren

Aufgabentreue
Menschliche Beteiligung
Deterministische Schutzmaßnahmen
Transparenz und Offenlegung
Entführerresistenz
Prinzip der minimalen Rechte und Governance
Bewusstsein für Lieferketten

Zusammenfassung

Das Entsperren des menschlichen Potenzials beginnt mit Vertrauen. Die Fähigkeit von agentenbasierten Systemen, sich zu entscheiden und autonom zu handeln, bedeutet, dass kleine Fehlausrichtungen, Aufsichten oder Sicherheitslücken zu erheblichen Folgen und Vertrauensverlusten führen können.

Da diese Systeme tiefer in Tools, APIs und andere Agenten integriert werden, wird ihr Verhalten immer komplexer – und die Wege, durch die Schäden auftreten können. Die risiken im Zusammenhang mit agentischem Verhalten sind systemisch und erfordern Risikominderungsstrategien, die den gesamten Systemstapel umfassen.

Durch die umfassende Anwendung der Verteidigung über Modell-, Sicherheitssystem-, Anwendungs- und Positionierungsebenen hinweg und durch die Nutzung des integrierten Ökosystems für Sicherheits- und Agentenverwaltung von Microsoft können Organisationen agentische Systeme bereitstellen, die autonom, feststellbar und robust sind.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-19

Freigeben über

Sichere autonome agentische KI-Systeme

Kontext und Problem

Lösung

Steuerelemente innerhalb von Gegenmaßnahmenebenen

Modelschichtsteuerungselemente

Sicherheitssystemebenensteuerungen

Anwendungsschichtsteuerelemente

Positionierung von Layer-Kontrollen

Microsoft-Lösungen

Primäre Steuerungsebene

Modellauswahl und -bewertung

Sicherheitssystem und Laufzeitminderungen

Identität und Datenschutz

UX-Design

Erkennung und Reaktion (unterstützung)

Leitlinien

Ergebnisse

Vorteile

Kompromisse

Wichtige Erfolgsfaktoren

Zusammenfassung

Feedback

Zusätzliche Ressourcen