Freigeben über


Sichere autonome agentische KI-Systeme

Pfeilername: Überwachen und Erkennen von Bedrohungen
Mustername: Sichere agentische KI-Systeme


Kontext und Problem

Autonome agentische KI-Systeme können Tools planen, aufrufen, auf Daten zugreifen und Aktionen mit eingeschränktem menschlichem Eingreifen ausführen. Da die Autonomie zunimmt, werden die potenziellen Auswirkungen der Fehlausrichtung, des Missbrauchs und des Kompromisses erhöht.

Der Artikel "Companion Patterns & Practices " reduziert das Risiko für autonome agentische KI-Systeme und beschreibt die Design-, Sicherheits- und Governancerisiken, die durch agentisches Verhalten eingeführt werden. Dieses Muster verschiebt sich von der Risikoidentifikation in die Risikominderung, wobei sie sich auf die Kontrollen und Entwurfsentscheidungen konzentriert, die diese Risiken in der Praxis mindern.

Lösung

Die Sicherung agentischer Systeme erfordert eine tiefgreifende Verteidigungsstrategie , die davon ausgeht, dass Fehler auf einzelnen Ebenen auftreten und Systeme entwickelt werden, sodass kein einzelner Fehler zu inakzeptablem Schaden führt.

Steuerelemente innerhalb von Gegenmaßnahmenebenen

Modelschichtsteuerungselemente

Das Modell fungiert als Begründungsmodul des Agenten und beeinflusst, wie der Agent Anweisungen interpretiert, Aktionen plant und auf adversariale Eingaben reagiert. Verschiedene Modelle bieten unterschiedliche Funktionen und Sicherheitsfeatures, die die Ausgaben und Aktionen des Agenten beeinflussen. Das Auswählen eines geeigneten Modells hilft dabei, Fehlausrichtung, Fehler und unsichere Ergebnisse zu vermeiden.

Empfohlene Steuerelemente:

  • Beabsichtigte Modellauswahl: Wählen Sie Modelle aus, deren Grundfähigkeit, Weigerungsverhalten und Werkzeugeigenschaften den Autonomie- und Risikoprofilen des Agenten entsprechen. Verringert die Fehlausrichtung von Vorgängen und unsicheren Aktionen.
  • Modell-Lieferkettengovernance: Behandeln Sie Modelle als Sicherheitsabhängigkeiten, indem Sie Versionen nachverfolgen, Updates überprüfen und Änderungen vor der Bereitstellung überprüfen. Verringert die Kompromittierung der Lieferkette.
  • Auswertung und Red-Teaming: Testen Sie kontinuierlich Modelle auf agentische Gefahren wie Cross-Prompt-Injektion, Intentionsbruch und gefährliche Werkzeugauswahl. Mildert die Entführung von Agenten und unbeabsichtigte Aktionen.
  • Funktionsausrichtung: Vermeiden Sie überfähige Modelle, wenn einfachere oder eingeschränkte Modelle den Anforderungen des Systems entsprechen. Verringert die übermäßige Autonomie und den erhöhten Strahlradius.

Sicherheitssystemebenensteuerungen

Die Sicherheitssystemebene fängt Fehler zur Laufzeit ab, wenn Agents mit nicht vertrauenswürdigen Inhalten, Tools, APIs und Benutzern interagieren. Diese Schutzmaßnahmen bilden eine wesentliche Verteidigung gegen operative Risiken, einschließlich Agentenübernahme, schädliche Ergebnisse, vertrauliche Datenlecks und Laufzeitmissbrauch.

Empfohlene Steuerelemente:

  • Eingabe- und Ausgabefilterung: Erkennen und blockieren Sie schädliche, manipulative oder unsichere Eingaben und Ausgaben, einschließlich indirekter Eingabeaufforderungseinfügung. Verringert das Risiko von unerlaubter Übernahme von Agenten und Lecks vertraulicher Daten.
  • Agenten-Leitplanken: Erzwingen Sie die Einhaltung von Aufgaben und verhindern Sie während der Ausführung unsichere Toolaufrufe oder solche außerhalb des erlaubten Bereichs. Verringert unbeabsichtigte Aktionen und Missbrauch mit hoher Wirkung.
  • Protokollierung und Observierbarkeit: Erfassen Sie Agentpläne, Toolanrufe, Entscheidungen und Ergebnisse, um Überwachung, Reaktion auf Vorfälle und Verbesserungen zu unterstützen. Verringert Verständlichkeitsfehler und nicht erkannten Missbrauch.
  • Missbrauch und Anomalieerkennung: Überwachen Sie wiederholte Umgehungsversuche oder anomalische Verhaltensmuster. Mindert anhaltendes Scannen und heimliche Exfiltration von Daten.

Anwendungsschichtsteuerelemente

Die Anwendungsschicht definiert, wie der Agent erstellt wird, welche Aktionen ausgeführt werden können und wie Steuerelemente erzwungen werden. Hier werden Sicherheitsprinzipien zum erzwingbaren Systemverhalten.

Empfohlene Steuerelemente:

  • Agents als Microservices: Entwerfen Sie Agents wie Microservices mit isolierten Berechtigungen und eingeschränkten Toolzugriff. Verringert die Fehlausrichtung, den Strahlradius und vertrauliche Datenlecks.
  • Explizite Aktionsschemas: Definieren Sie zulässige Aktionen, erforderliche Eingaben, Risikostufen, Ausführungseinschränkungen und Protokollierungsanforderungen. Verringert unbeabsichtigte Aktionen und unsichere Toolaufrufe.
  • Deterministische Human-in-the-Loop (HITL): Erzwingen Sie die menschliche Überprüfung bei hochriskanten oder irreversiblen Aktionen durch Orchestratorlogik, statt durch Modellüberlegungen. Mildert Aufsichtskontrolllücken und Fehlausrichtung.
  • Design der geringsten Rechte und geringsten Aktionen: Beginnen Sie standardmäßig ohne zulässige Aktionen, und aktivieren Sie funktionen basierend auf Rolle und Risiko inkrementell. Weisen Sie jedem Agent eine eindeutige, überprüfbare Identität zu, um RBAC zu erzwingen. Verringert vertrauliche Datenlecks, Agenten-Ausbreitung und ein Übermaß an Berechtigungen.
  • Systemmeldungen als Verstärkung: Verwenden Sie strukturierte Systemanweisungen, um Rollen und Grenzen zu stärken, die immer durch deterministische Steuerelemente unterstützt werden. Entschärft Agenten-Entführer und Fehlausrichtung.

Positionierung von Layer-Kontrollen

Die Positionierungsebene beeinflusst, wie Menschen ein agentenbasiertes System verstehen, ihm vertrauen und sich auf es verlassen. Eine schlechte Positionierung kann auch dann ein Risiko darstellen, wenn technische Kontrollen stark sind.

Empfohlene Steuerelemente:

  • Klare Offenlegung: Machen Sie es explizit, wenn Benutzer mit einem autonomen KI-Agent interagieren. Verringert Transparenz- und Offenlegungsfehler.
  • Funktionstransparenz: Kommunizieren Sie, was der Agent tun kann und nicht, einschließlich Einschränkungen und Unsicherheiten. Vermeiden Sie es, Agenten als autoritativ oder unfehlbar darzustellen. Verringert unangemessene Abhängigkeiten.
  • Benutzersichtbare Grenzen: Aufzeigen geplanter Aktionen, Genehmigungen und Ergebnisse, damit Benutzer ungewöhnliches Verhalten erkennen können. Verringert Verständlichkeitsfehler.
  • Sichere UX-Muster: Stellen Sie sicher, dass Überprüfungs-, Genehmigungs- und Abschaltmechanismen zugänglich, sicher und geschützt sind. Verringert Missbrauch und Übermäßige Abhängigkeit.

Microsoft-Lösungen

In den obigen Steuerelementen wird beschrieben, was implementiert werden soll. Die folgenden Microsoft-Lösungen helfen bei der Operationalisierung dieser Gegenmaßnahmen über Identität, Governance, Laufzeiterzwingung und Erkennung hinweg.

Primäre Steuerungsebene

  • Microsoft Agent 365:
    • Bietet zentralisierte Inventar-, Governance-Strukturen, Zugriffsrichtlinien und agentübergreifende Sichtbarkeit.
    • Unterstützt: Verhinderung von Agent-Sprawl, Prinzip der minimalen Rechte und Governance. Unterstützt: Verhinderung von Agent-Sprawl, Prinzip der minimalen Berechtigungen, Governance.

Modellauswahl und -bewertung

Sicherheitssystem und Laufzeitminderungen

  • Microsoft Foundry (Guardrails, Inhaltsfilter, Missbrauchsüberwachung)
    • Erzwingt die Einhaltung von Aufgaben, filtert nicht vertrauenswürdige Eingaben und Ausgaben und erkennt Missbrauchsmuster.
    • Unterstützt: Eingabeaufforderungsminderung, Leckageschutz.

Identität und Datenschutz

  • Microsoft Entra:

    • Stellt Identitäts-, bedingte Zugriffs- und rollenbasierte Zugriffssteuerung für Agents bereit.
    • Unterstützt: Prinzip der geringsten Privilegien, Zugriffskontrolle.
  • Microsoft Purview:

    • Bietet Datenklassifizierung, Governance und Richtlinienerzwingung.
    • Unterstützt: Schutz vertraulicher Daten.

UX-Design

Erkennung und Reaktion (unterstützung)

  • Microsoft Defender und Microsoft Sentinel für die Verwaltung von Sicherheitsstatus, Signalkorrelation und Reaktion auf Vorfälle über Agentworkloads hinweg.
  • Azure Monitor und Application Insights zur Telemetrie und Beobachtbarkeit für das Verhalten und die Leistung von Agenten.

Leitlinien

Organisationen, die dieses Muster einführen möchten, können die folgenden aktionen erfordernden Methoden anwenden:

Praxiskategorie Empfohlene Maßnahmen Ressource
Steuerung für Tools, Agenten und Modelle Onboarding von Agenten in Foundry mithilfe unterstützter Frameworks oder das Registrieren von benutzerdefinierten Agenten. Microsoft Foundry Control Plane
Resilienz der Inhaltssicherheit und Einfügung von Eingabeaufforderungen Filtern von Eingaben und Ausgaben; Behandeln abgerufener Inhalte als nicht vertrauenswürdig; Blockieren von indirekten Prompt-Injection. Foundry-Content-Filterung und Schutzmechanismen für Eingabeaufforderungen
Aufgabentreue & Werkzeugsicherheit Erzwingen von Tool-Zulassungslisten und deterministischer Überprüfung Foundry Agent Leitplanken
KI-Teamerstellung Kontinuierliches Testen auf Prompt-Injektion, Intent-Fehler, unsichere Toolauswahl und Datenleckagen Findry AI Red Teaming Agent / PyRIT
Identität und Zugriff für Agents Anwendung des Minimalprinzips der Berechtigung, bedingter Zugriff und Governancemanagement des Lebenszyklus Microsoft Entra
Datenverwaltung und Compliance Klassifizieren und Schützen vertraulicher Daten Microsoft Purview
Verwaltung des Sicherheitsstatus Bewerten von Konfigurationen und Sicherheitsrisiken Microsoft Defender für Cloud
Erkennen von Missbrauch Korrelation von Protokollen und Traces Microsoft Sentinel

Ergebnisse

Vorteile

  • Agents arbeiten innerhalb definierter Absichten, Berechtigungen und Grenzen.
  • Risikoaktionen erfordern eine deterministische menschliche Genehmigung.
  • Das Agentverhalten ist feststellbar, überprüfbar und kann im Großen und Umfang geregelt werden.
  • Die Offenlegung vertraulicher Daten wird durch das Prinzip der minimalen Berechtigung und die Durchsetzung von Richtlinien reduziert.
  • Organisationen behalten die Sichtbarkeit und Kontrolle bei, wenn die Agent-Nutzung wächst.
  • Vertrauen basiert auf Transparenz, Rechenschaftspflicht und vorhersehbarem Verhalten.

Kompromisse

  • Zusätzliche Technische Anstrengungen sind erforderlich, um mehrstufige Steuerelemente zu implementieren.
  • Autonome Systeme führen zu architektur- und betriebstechnischer Komplexität.
  • Menschliche Aufsicht fügt Reibung zu risikoreichen Arbeitsabläufen hinzu.
  • Governance und Beobachtbarkeit erfordern nachhaltige operative Investitionen.

Wichtige Erfolgsfaktoren

  • Aufgabentreue
  • Menschliche Beteiligung
  • Deterministische Schutzmaßnahmen
  • Transparenz und Offenlegung
  • Entführerresistenz
  • Prinzip der minimalen Rechte und Governance
  • Bewusstsein für Lieferketten

Zusammenfassung

Das Entsperren des menschlichen Potenzials beginnt mit Vertrauen. Die Fähigkeit von agentenbasierten Systemen, sich zu entscheiden und autonom zu handeln, bedeutet, dass kleine Fehlausrichtungen, Aufsichten oder Sicherheitslücken zu erheblichen Folgen und Vertrauensverlusten führen können.

Da diese Systeme tiefer in Tools, APIs und andere Agenten integriert werden, wird ihr Verhalten immer komplexer – und die Wege, durch die Schäden auftreten können. Die risiken im Zusammenhang mit agentischem Verhalten sind systemisch und erfordern Risikominderungsstrategien, die den gesamten Systemstapel umfassen.

Durch die umfassende Anwendung der Verteidigung über Modell-, Sicherheitssystem-, Anwendungs- und Positionierungsebenen hinweg und durch die Nutzung des integrierten Ökosystems für Sicherheits- und Agentenverwaltung von Microsoft können Organisationen agentische Systeme bereitstellen, die autonom, feststellbar und robust sind.