Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
KI-Agents sind dafür konzipiert, bestimmte Aufgaben auszuführen, Fragen zu beantworten und Prozesse für Benutzer zu automatisieren. Diese Agent unterscheiden sich stark in der Komplexität. Sie reichen von einfachen Chatbots über Copiloten bis hin zu fortgeschrittenen KI-Assistenten in Form von digitalen oder robotergestützten Systemen, die komplexe Workflows selbstständig ausführen können.
Dieser Artikel bietet einen konzeptionellen Überblick und detaillierte Implementierungsbeispiele für KI-Agents.
Was sind KI-Agents?
Im Gegensatz zu eigenständigen großen Sprachmodellen (Large Language Models, LLMs) oder regelbasierten Software-/Hardwaresystemen haben KI-Agents diese allgemeinen Merkmale:
- Planung: KI-Agents können Aktionen planen und sequenzieren, um bestimmte Ziele zu erreichen. Die Planungsfunktionen wurden durch die Integration von LLMs revolutioniert.
- Toolverwendung: Erweiterte KI-Agents können verschiedene Tools wie Codeausführung, Suche und Berechnungsfunktionen nutzen, um Aufgaben effektiv auszuführen. KI-Agents verwenden häufig Tools über Funktionsaufrufe.
- Wahrnehmung: KI-Agents können Informationen aus ihrer Umgebung wahrnehmen und verarbeiten, um sie interaktiver und kontextfähiger zu machen. Diese Informationen umfassen visuelle, auditive und andere sensorische Daten.
- Speicher; KI-Agents können sich frühere Interaktionen (Verwendung von Tools und Wahrnehmung) und Verhaltensweisen (Verwendung von Tools und Planung) merken. Sie speichern diese Erfahrungen und führen sogar eine Selbstreflexion durch, um zukünftige Aktionen zu steuern. Diese Speicherkomponente sorgt für Leistungskontinuität und ermöglicht eine Verbesserung der Agent-Leistung im Laufe der Zeit.
Hinweis
Der Begriff Speicher im Zusammenhang mit KI-Agents ist ein anderes Konzept als der Arbeitsspeicher (z. B. flüchtiger, nicht flüchtiger und persistenter Speicher).
Copilots
Copilots sind eine Art KI-Agent. Sie arbeiten zusammen mit Benutzerinnen und Benutzern, anstatt unabhängig zu arbeiten. Anders als vollständig automatisierte Agents stellen Copilots Vorschläge und Empfehlungen bereit, die Benutzern bei der Durchführung von Aufgaben helfen.
Wenn ein Benutzer eine E-Mail schreibt, kann ein Copilot beispielsweise Ausdrücke, Sätze oder Absätze vorschlagen. Der Benutzer kann den Copilot auch auffordern, in anderen E-Mails oder Dateien nach relevanten Informationen zu suchen, die den Vorschlag unterstützen (siehe Retrieval Augmented Generation). Der Benutzer kann die vorgeschlagenen Textabschnitte annehmen, ablehnen oder bearbeiten.
Autonome Agents
Autonome Agents können unabhängiger arbeiten. Wenn Sie autonome Agents zur Unterstützung der E-Mail-Erstellung einrichten, können Sie sie zum Ausführen der folgenden Aufgaben konfigurieren:
- Lesen vorhandener E-Mails, Chats, Dateien und anderer interner und öffentlicher Informationen, die mit dem Thema zusammenhängen
- Durchführen qualitativer oder quantitativer Analysen der gesammelten Informationen und Ableiten relevanter Schlussfolgerungen für die E-Mail
- Schreiben Sie die vollständige E-Mail basierend auf den Schlussfolgerungen, und integrieren Sie unterstützende Nachweise.
- Anfügen relevanter Dateien an die E-Mail
- Überprüfen der E-Mail, um sicherzustellen, dass alle enthaltenen Informationen sachlich korrekt und die Aussagen zutreffend sind
- Wählen Sie die entsprechenden Empfangenden für die Felder An, Cc und Bcc aus, und suchen Sie nach ihren E-Mail-Adressen.
- Planen einer geeigneten Zeit zum Senden der E-Mail
- Ausführen nachfolgender Kontaktaufnahmen, wenn Antworten erwartet, aber nicht empfangen werden
Sie können die Agents dafür konfigurieren, jeden der vorherigen Aufgaben mit oder ohne menschliche Genehmigung auszuführen.
Multi-Agent-Systeme
Die Verwendung von Multi-Agent-Systemen ist derzeit eine beliebte Strategie zum Implementieren leistungsfähiger autonomer Agents. In Multi-Agent-Systemen interagieren oder arbeiten mehrere autonome Agents (digital oder robotergesteuert) zusammen, um individuelle oder kollektive Ziele zu erreichen. Agents im System können unabhängig voneinander arbeiten und über eigenes Wissen oder eigene Informationen verfügen. Zudem könnte jeder Agent in der Lage sein, seine Umgebung wahrzunehmen, Entscheidungen zu treffen und Aktionen basierend auf seinen Zielen auszuführen.
Multi-Agent-Systeme weisen die folgenden wichtigsten Merkmale auf:
- Autonom: Jeder Agent funktioniert unabhängig. Er trifft ohne direkte menschliche Intervention oder Kontrolle durch andere Agents eigene Entscheidungen.
- Interaktiv: Agents kommunizieren miteinander und arbeiten zusammen, um Informationen auszutauschen, zu verhandeln und ihre Aktionen zu koordinieren. Diese Interaktion kann über verschiedene Protokolle und Kommunikationskanäle erfolgen.
- Zielorientiert: Agents in einem Multi-Agent-System sind dafür konzipiert, bestimmte Ziele zu erreichen, die auf individuelle Zielsetzungen oder eine gemeinsame Zielsetzung der Agents ausgerichtet sein können.
- Verteilt: Multi-Agent-Systeme arbeiten dezentral, ohne einen einzigen zentralen Steuerungspunkt. Diese Verteilung verbessert die Stabilität, Skalierbarkeit und Ressourceneffizienz des Systems.
Ein Multi-Agent-System bietet die folgenden Vorteile gegenüber einem Copilot oder einer einzelnen Instanz von LLM-Rückschlüssen:
- Dynamische Begründung: Im Vergleich zum Chain-of-Thought (CoT)- oder Tree-of-Thought (ToT)-Prompting ermöglichen Multi-Agent-Systeme die dynamische Navigation durch verschiedene Begründungspfade.
- Komplexe Fähigkeiten: Multi-Agent-Systeme können komplexe oder große Probleme bewältigen, indem sie gründliche Entscheidungsprozesse durchführen und Aufgaben auf mehrere Agents verteilen.
- Erweiterter Arbeitsspeicher: Multi-Agent-Systeme mit Arbeitsspeicher können die Kontextfenster von LLMs überwinden, um ein besseres Verständnis und eine bessere Informationsaufbewahrung zu ermöglichen.
Implementierung von KI-Agents
Begründung und Planung
Fortschrittliche autonome Agents zeichnen sich durch komplexe Begründung und Planung aus. Beliebte Frameworks für autonome Agents umfassen eine oder mehrere der folgenden Methoden (mit Links zu den arXiv-Archivseiten) für die Begründung und Planung:
Self-ask (Sich selbst fragen)
Verbessern Sie die Gedankenkette, indem Sie das Modell explizit Folgefragen stellen (und beantworten) lassen, bevor es die Ausgangsfrage beantwortet.
-
Die Agents verwenden LLMs, um sowohl Begründungstraces als auch aufgabenspezifische Aktionen verschachtelt zu generieren. Begründungstraces helfen dem Modell, Aktionspläne zu erstellen, zu verfolgen und zu aktualisieren sowie Ausnahmen zu behandeln. Aktionen ermöglichen es dem Modell, sich mit externen Quellen zu verbinden, z. B. mit Wissensdatenbanken oder Umgebungen, um zusätzliche Informationen zu sammeln.
-
Die Agents entwickeln einen Plan, um die gesamte Aufgabe in kleinere Teilaufgaben aufzuteilen und die Teilaufgaben dann gemäß dem Plan auszuführen. Durch diesen Ansatz werden Berechnungsfehler sowie Fehler aufgrund von fehlenden Schritten und semantischen Fehlerinterpretationen minimiert, die beim Zero-Shot-CoT-Prompting häufig auftreten.
-
Verwenden Sie Reflexions-Agents, die verbal über die Signale des Aufgabenfeedbacks reflektieren. Diese Agents behalten ihren eigenen reflektierenden Text für eine bessere Entscheidungsfindung bei nachfolgenden Versuchen in einem episodischen Gedächtnispuffer.
Frameworks
Verschiedene Frameworks und Tools können die Entwicklung und Bereitstellung von KI-Agents erleichtern.
Beliebte LLM-Orchestratorframeworks für die Verwendung von Tools und die Wahrnehmung, die weder eine komplexe Planung noch Arbeitsspeicher erfordern, sind LangChain, LlamaIndex, Prompt Flow und Semantic Kernel.
Für erweiterte und autonome Planungs- und Ausführungsworkflows hat AutoGen die Welle von Multi-Agent-Systemen vorangetrieben, die Ende 2022 ihren Anfang hatte. Die Antwort-API von OpenAI ermöglicht es seinen Benutzenden, nativ im GPT-Ökosystem Agents zu erstellen. In etwa zur gleichen Zeit entstanden auch LangChain-Agents und LlamaIndex-Agents.
KI-Agent-Speichersystem
Die gängige Praxis für das Experimentieren mit KI-erweiterten Anwendungen vom Jahr 2022 bis 2025 verwendet eigenständige Datenbankverwaltungssysteme für verschiedene Datenworkflows oder -typen. Dabei können Sie beispielsweise eine In-Memory-Datenbank zum Zwischenspeichern, eine relationale Datenbank für operative Daten (einschließlich Ablaufverfolgungs-/Aktivitätsprotokolle und LLM-Konversationsverlauf) und eine reine Vektordatenbank für die Einbettungsverwaltung verwenden.
Die Verwendung eines solchen komplexen Netzwerks von eigenständigen Datenbanken kann jedoch die Leistung eines KI-Agents beeinträchtigen. Die Integration all dieser unterschiedlichen Datenbanken in ein zusammenhängendes, interoperables und resilientes Speichersystem für KI-Agents ist eine eigene Herausforderung.
Außerdem sind viele der häufig verwendeten Datenbankdienste nicht optimal für die Geschwindigkeit und Skalierbarkeit, die KI-Agentsysysteme benötigen. Die individuellen Schwachstellen dieser Datenbanken werden in Multi-Agent-Systemen noch verschärft.
In-Memory-Datenbanken
In-Memory-Datenbanken sind zwar schnell, können aber möglicherweise nicht die umfangreiche Datenpersistenz bieten, die KI-Agents erfordern.
Relationale Datenbanken
Relationale Datenbanken eignen sich nicht ideal für die unterschiedlichen Modalitäten und dynamischen Schemas von Daten, die Agents verarbeiten. Relationale Datenbanken erfordern manuellen Aufwand und sogar Downtimes zum Verwalten der Bereitstellung, der Partitionierung und des Shardings.
Reine Vektordatenbanken
Reine Vektordatenbanken sind in der Regel weniger effektiv für Transaktionsvorgänge, Echtzeitaktualisierungen und verteilte Workloads. Die gängigen reinen Vektordatenbanken bieten heute in der Regel Folgendes:
- Keine Garantie für Lese- und Schreibvorgänge
- Beschränkten Erfassungsdurchsatz
- Geringe Verfügbarkeit (unter 99,9 % oder einen jährlichen Ausfall von 9 Stunden oder mehr)
- Eine (letztliche) Konsistenzebene
- Einen ressourcenintensiven In-Memory-Vektorindex
- Begrenzte Optionen für Mehrinstanzenfähigkeit
- Begrenzte Sicherheit
Merkmale eines stabilen KI-Agent-Speichersystems
Ebenso wie effiziente Datenbank-Managementsysteme entscheidend für die Leistung von Softwareanwendungen sind, ist es wichtig, LLM-gestützten Agents relevante und nützliche Informationen für Rückschlüsse bereitzustellen. Stabile Speichersysteme ermöglichen das Organisieren und Speichern verschiedener Arten von Informationen, die zum Zeitpunkt des Rückschlusses von den Agents abgerufen werden.
Derzeit verwenden LLM-basierte Anwendungen häufig Retrieval Augmented Generation (RAG), eine Technik, die die grundlegende semantische Suche oder Vektorsuche verwendet, um Textabschnitte oder Dokumente abzurufen. Die Vektorsuche kann nützlich sein, um allgemeine Informationen zu finden. Die Vektorsuche erfasst aber möglicherweise nicht den spezifischen Kontext, die Struktur oder die Beziehungen, die für eine bestimmte Aufgabe oder ein Fachgebiet relevant sind.
Wenn die Aufgabe beispielsweise darin besteht, Code zu schreiben, ist die Vektorsuche möglicherweise nicht in der Lage, die Syntaxstruktur, das Dateisystemlayout, Codezusammenfassungen oder API-Signaturen abzurufen, die für das Generieren von kohärentem und korrektem Code wichtig sind. Wenn die Aufgabe in der Arbeit mit tabellarischen Daten besteht, kann die Vektorsuche möglicherweise nicht das Schema, die Fremdschlüssel, die gespeicherten Prozeduren oder Berichte abrufen, die für das Abfragen oder Analysieren der Daten hilfreich sind.
Auch das Zusammenstellen eines Netzwerks von eigenständigen In-Memory-, relationalen und Vektordatenbanken (wie bereits zuvor beschrieben) ist keine optimale Lösung für die unterschiedlichen Datentypen. Dieser Ansatz kann für prototypische Agent-Systeme funktionieren. Er erhöht jedoch die Komplexität und verursacht zusätzliche Leistungsengpässe, die die Leistung fortschrittlicher autonomer Agents beeinträchtigen können.
Ein stabiles Speichersystem sollte die folgenden Merkmale aufweisen:
Multimodal
KI-Agent-Speichersysteme sollten Sammlungen bereitstellen, in denen Metadaten, Beziehungen, Entitäten, Zusammenfassungen oder andere Arten von Informationen gespeichert werden, die für Aufgaben und Fachgebiete nützlich sein können. Diese Sammlungen können auf der Struktur und dem Format der Daten basieren, z. B. Dokumente, Tabellen oder Code. Oder sie können auf dem Inhalt und der Bedeutung der Daten basieren, z. B. auf Konzepten, Assoziationen oder Verfahrensschritten.
Speichersysteme sind nicht nur für KI-Agents von Bedeutung. Sie sind auch wichtig für die Menschen, die diese Mittel entwickeln, pflegen und verwenden.
Beispielsweise müssen Menschen die Planungs- und Ausführungsworkflows von Agents möglicherweise in Quasi-Echtzeit überwachen. Während der Überwachung können Menschen möglicherweise steuernd eingreifen oder die Dialoge oder Monologe von Agents inline bearbeiten. Ebenso müssen die Begründung und die Aktionen von Agents möglicherweise von Menschen überwacht werden, um die Gültigkeit des Endergebnisses zu verifizieren.
Die Interaktionen zwischen Mensch und Agent erfolgen wahrscheinlich in natürlicher Sprache oder Programmiersprachen, während das „Denken“, „Lernen“ und „Erinnern“ von Agents durch Einbettungen erfolgt. Diese Unterschiede stellen eine weitere Anforderung an die datenmodalitätsübergreifende Konsistenz der Speichersysteme dar.
Bei Betrieb
Speichersysteme sollten Speicherbanken bereitstellen, die für die Interaktion mit dem Benutzer und die Umgebung relevante Informationen speichern. Zu diesen Informationen können möglicherweise Chatverläufe, Benutzereinstellungen, sensorische Daten, getroffene Entscheidungen, gelernte Fakten oder andere operative Daten gehören, die häufig und in großem Umfang aktualisiert werden.
Diese Speicherbanken können den Agents helfen, sich an kurz- und langfristige Informationen zu erinnern, Wiederholungen oder Widersprüche zu vermeiden und die Aufgabenkohärenz zu wahren. Diese Anforderungen müssen auch dann erfüllt sein, wenn die Agents viele nicht zusammenhängende Aufgaben nacheinander ausführen. In komplexeren Anwendungsfällen können Agents möglicherweise auch Pläne mit zahlreichen Verzweigungen unterstützen, die an verschiedenen Punkten zusammenlaufen oder auseinandergehen.
Gemeinsam benutzbar, aber auch separierbar
Auf der Makroebene sollten Speichersysteme es mehreren KI-Agents ermöglichen, gemeinsam an einem Problem zu arbeiten oder verschiedene Aspekte des Problems zu bearbeiten, indem sie einen gemeinsam genutzten Speicher bereitstellen, auf den alle Agents zugreifen können. Ein gemeinsam genutzter Speicher kann den Austausch von Informationen und die Koordinierung von Aktionen zwischen den Agents unterstützen.
Gleichzeitig muss das Speichersystem es den Agents ermöglichen, ihre jeweilige Rolle und ihre individuellen Eigenschaften zu wahren, z. B. ihre spezifischen Sammlungen von Prompts und Erinnerungen.
Erstellen eines stabilen KI-Agent-Speichersystems
Die genannten Merkmale erfordern, dass KI-Agent-Speichersysteme hoch skalierbar und schnell sind. Die mühsame Zusammenführung verschiedener In-Memory-, relationaler und Vektordatenbanken (wie oben beschrieben) könnte für KI-gestützte Anwendungen im Anfangsstadium funktionieren. Dieser Ansatz erhöht jedoch die Komplexität und verursacht zusätzliche Leistungsengpässe, die die Leistung fortschrittlicher autonomer Agents beeinträchtigen können.
Anstelle all der eigenständigen Datenbanken kann Azure Cosmos DB als einheitliche Lösung für KI-Agent-Speichersysteme genutzt werden. Dank der Stabilität von Cosmos DB konnte der ChatGPT-Dienst von OpenAI mit hoher Zuverlässigkeit und geringem Wartungsaufwand erfolgreich dynamisch skaliert werden. Unterstützt von einer ARS (Atom Record Sequence)-basierten Engine ist Cosmos DB der weltweit erste global verteilte Dienst für NoSQL-Datenbanken, relationale Datenbanken und Vektordatenbanken, der einen serverlosen Modus bietet. KI-Agents, die auf Azure Cosmos DB basieren, bieten Geschwindigkeit, Skalierbarkeit und Einfachheit.
Geschwindigkeit
Azure Cosmos DB bietet eine Latenzzeit im einstelligen Millisekundenbereich. Dank dieser Fähigkeit eignet es sich für Prozesse, die einen schnellen Datenzugriff und eine schnelle Datenverwaltung erfordern. Zu diesen Prozessen gehören Zwischenspeicherung (sowohl herkömmliches als auch semantisches Zwischenspeichern), Transaktionen und operative Workloads.
Geringe Latenz ist für KI-Agents, die komplexe Begründungen ausführen, Entscheidungen in Echtzeit treffen und sofortige Antworten bereitstellen müssen, von entscheidender Bedeutung. Darüber hinaus bietet der Dienst durch die Verwendung des hochmodernen DiskANN-Algorithmus eine genaue und schnelle Vektorsuche mit einer minimal geringeren Arbeitsspeichernutzung.
Skalieren
Azure Cosmos DB wurde für die globale Verteilung und horizontale Skalierbarkeit entwickelt, mit Unterstützung für E/A in mehreren Regionen und Mehrinstanzenfähigkeit.
Der Dienst trägt dazu bei, dass Speichersysteme nahtlos erweitert werden können und mit den schnell wachsenden Agents und den damit verbundenen Daten Schritt halten können. Die Verfügbarkeitsgarantie in seinem Service-Level-Vertrag (SLA) bedeutet weniger als 5 Minuten Ausfallzeit pro Jahr. Bei reinen Vektordatenbankdiensten hingegen sind Ausfallzeiten von 9 Stunden und mehr zu erwarten. Diese Verfügbarkeit bietet eine solide Grundlage für unternehmenskritische Workloads. Gleichzeitig können die verschiedenen Servicemodelle in Azure Cosmos DB, wie Reservierte Kapazität oder „Serverlos“, dazu beitragen, die Kosten zu senken.
Einfachheit
Azure Cosmos DB kann die Datenverwaltung und -architektur vereinfachen, indem mehrere Datenbankfunktionen in einer einzigen, zusammenhängenden Plattform integriert werden.
Die integrierten Vektordatenbankfunktionen können Einbettungen zusammen mit den entsprechenden Daten in natürlicher Sprache oder Programmiersprachen speichern, indizieren und abfragen. Diese Funktion ermöglicht eine höhere Datenkonsistenz, Skalierung und Leistung.
Dank seiner Flexibilität kann der Cosmos DB-Dienst die verschiedenen Modalitäten und flexiblen Schemata der Metadaten, Beziehungen, Entitäten, Zusammenfassungen, Chatverläufe, Benutzereinstellungen, sensorischen Daten, Entscheidungen, gelernten Fakten oder anderen operativen Daten, die in Agent-Workflows verwendet werden, unterstützen. Die Datenbank indiziert automatisch alle Daten, ohne dass eine Schema- oder Indexverwaltung erforderlich ist, so dass KI-Agents komplexe Abfragen schnell und effizient durchführen können.
Azure Cosmos DB ist vollständig verwaltet, daher entfällt der Mehraufwand für die Datenbankverwaltungsaufgaben wie Skalierung, Patchen und Backups. Ohne diesen Mehraufwand können sich Entwicklerinnen und Entwickler auf das Erstellen und Optimieren der KI-Agents konzentrieren, ohne sich Gedanken über die zugrunde liegende Dateninfrastruktur machen zu müssen.
Erweiterte Funktionen
Azure Cosmos DB enthält erweiterte Funktionen wie den Änderungsfeed, der es ermöglicht, Datenänderungen in Echtzeit nachzuverfolgen und sofort zu reagieren. Diese Funktion ist nützlich für KI-Agents, die umgehend auf neue Informationen reagieren müssen.
Darüber hinaus ermöglicht die integrierte Unterstützung für Multimaster-Schreibvorgänge Hochverfügbarkeit und Resilienz, um den kontinuierlichen Vorgang der KI-Agents auch nach regionalen Ausfällen zu gewährleisten.
Die fünf verfügbaren Konsistenzebenen (von starker bis letztlicher Konsistenz) können je nach Anforderungen des Szenarios auch für verschiedene verteilte Workloads eingesetzt werden.
Tipp
Verwenden Sie Azure Cosmos DB für NoSQL, um Ihr KI-Agent-Speichersystem zu erstellen. Die API für NoSQL bietet 99.999% Verfügbarkeitsgarantie und bietet drei Vektorsuchalgorithmen:
- IVF
- HNSW
- DiskANN
Informationen zu den Verfügbarkeitsgarantien für diese API finden Sie in den Dienst-SLAs.