Freigeben über


Arbeitsspeicher im Foundry Agent Service (Vorschau)

Von Bedeutung

Arbeitsspeicher (Vorschau) im Foundry Agent Service und der Memory Store-API (Vorschau) werden als Teil Ihres Azure-Abonnements lizenziert und unterliegen den Bedingungen für "Vorschauen" in den Microsoft-Produktbedingungen und dem Microsoft-Produkt- und Dienstdatenschutz-Zusatz sowie den Microsoft Generative AI Services Preview-Bedingungen in den ergänzenden Nutzungsbedingungen für Microsoft Azure Previews.

Der Speicher im Foundry Agent Service ist eine verwaltete, langfristige Speicherlösung. Sie ermöglicht die Agentkontinuität über Sitzungen, Geräte und Workflows hinweg. Durch das Erstellen und Verwalten von Speicherspeichern können Sie Agents erstellen, die Benutzereinstellungen beibehalten, den Unterhaltungsverlauf verwalten und personalisierte Erfahrungen bereitstellen.

Dieser Artikel enthält eine Übersicht über den Agentspeicher, einschließlich seiner Konzepte, Anwendungsfälle, bewährten Methoden und Einschränkungen. Anweisungen zur Verwendung finden Sie unter Erstellen und Verwenden des Arbeitsspeichers im Foundry Agent Service.

Was ist Speicher?

Speicher ist beständiges Wissen, das von einem Agent über Sitzungen hinweg aufbewahrt wird. Im Allgemeinen fällt der Agentspeicher in zwei Kategorien:

  • Der Kurzzeitspeicher verfolgt das Gespräch der aktuellen Sitzung und erhält den unmittelbaren Kontext für fortlaufende Interaktionen. Agent-Orchestrierungsframeworks, z. B. Microsoft Agent Framework, verwalten diesen Speicher in der Regel als Teil des Sitzungskontexts.

  • Langzeitgedächtnis bewahrt destilliertes Wissen über Sitzungen hinweg. Das Modell kann im Laufe der Zeit auf vorherige Benutzerinteraktionen zurückrufen und aufbauen. Für den langfristigen Speicher ist ein dauerhaftes System erforderlich, das Das Wissen extrahiert, konsolidiert und verwaltet.

Der Speicher im Foundry Agent Service wurde für den langfristigen Speicher entwickelt. Sie extrahiert aussagekräftige Informationen aus Unterhaltungen, konsolidiert sie in dauerhaftes Wissen und macht sie in allen Sitzungen verfügbar.

Funktionsweise des Arbeitsspeichers

Hinter den Kulissen werden Erinnerungen als Elemente in einem verwalteten Speicher gespeichert. Das System wendet ggf. Konsolidierungs- und Konfliktlösungslogik an. Derzeit wird eine Konsolidierung für Benutzerprofilerinnerungen durchgeführt, um doppelte oder überlappende Profilinformationen zusammenzuführen. Chatzusammenfassungserinnerungen werden nicht konsolidiert.

Der Speicher arbeitet in den folgenden Phasen:

  1. Extraktion: Wenn ein Benutzer mit einem Agent interagiert, extrahiert das System aktiv wichtige Informationen aus der Unterhaltung, z. B. Benutzereinstellungen, Fakten und relevanten Kontext. So werden z. B. Präferenzen wie "allergische Milch" und Zusammenfassungen der letzten Aktivitäten identifiziert und gespeichert.

  2. Konsolidierung: Extrahierte Erinnerungen werden konsolidiert, um den Speicher effizient und relevant zu halten. Das System verwendet LLMs, um ähnliche oder doppelte Themen zusammenzuführen, sodass der Agent keine redundanten Informationen speichert. Widersprüchliche Fakten, wie eine neue Allergie, werden aufgelöst, um ein genaues Gedächtnis aufrechtzuerhalten.

  3. Abrufen: Wenn der Agent Informationen zurückrufen muss, verwendet er hybride Suchtechniken, um die relevantesten Erinnerungen zu finden. Auf diese Weise kann der Agent schnell den richtigen Kontext hervorheben, wodurch Unterhaltungen natürlich und kenntnisreich wirken. Kernerinnerungen, z. B. Benutzerprofil und Einstellungen, werden am Anfang einer Unterhaltung abgerufen, sodass der Agent sofort den Kernanforderungen des Benutzers bekannt ist.

Hier ist ein Beispiel dafür, wie der Speicher die Interaktionen zwischen einem Rezeptassistenten und einem Benutzer verbessern und personalisieren kann, der zuvor eine Lebensmittelallergie angegeben hat.

Ein Diagramm, das die Speicherintegration veranschaulicht.

Tipp

Speicher ist nicht für allgemeine Dokumentaufnahme, Speicher oder Abruf konzipiert. Um einem Agenten Basisdaten bereitzustellen, erwägen Sie die Verwendung einer Foundry IQ-Wissensbasis.

Speichertypen

Der Speicher im Foundry Agent Service extrahiert und speichert zwei Arten von Langzeitspeicher:

Typ Description Konfiguration
Benutzerprofilspeicher Informationen und Einstellungen für den Benutzer, z. B. bevorzugter Name, Ernährungseinschränkungen und Sprachpräferenzen. Diese Erinnerungen gelten als "statisch" in Bezug auf eine Unterhaltung, da sie in der Regel nicht vom aktuellen Chatkontext abhängen. Es wird empfohlen, benutzerprofilerinnerungen nur einmal am Anfang jeder Unterhaltung abzurufen. Geben Sie user_profile_details in einem Speicher an.
Speicher für Chatzusammenfassungen Eine destillierte Zusammenfassung der einzelnen Themen oder Threads, die in einer Chatsitzung behandelt werden. Diese Erinnerungen ermöglichen Es Benutzern, Unterhaltungen fortzusetzen oder auf frühere Sitzungen zu verweisen, ohne früheren Kontext zu wiederholen. Es wird empfohlen, dass Sie Chatzusammenfassungserinnerungen dynamisch basierend auf der aktuellen Unterhaltung abrufen, um relevante Threads anzuzeigen. Aktivieren Sie chat_summaries in einem Speicherort.

Arbeiten mit Arbeitsspeicher

Es gibt zwei Möglichkeiten zum Verwenden des Arbeitsspeichers für Agentinteraktionen:

  • Speichersuchtool: Fügen Sie das Speichersuchtool an einen Eingabeaufforderungsassistenten an, um das Lesen und Schreiben im Speicher während Unterhaltungen zu ermöglichen. Dieser Ansatz eignet sich ideal für die meisten Szenarien, da sie die Speicherverwaltung vereinfacht. Weitere Informationen finden Sie unter Verwenden von Erinnerungen über ein Agent-Tool.

  • Speicher-APIs: Interagieren Sie direkt mit dem Speicher mit den APIs auf niedriger Ebene. Dieser Ansatz bietet mehr Kontrolle und Flexibilität für erweiterte Anwendungsfälle. Weitere Informationen finden Sie unter Verwenden von Erinnerungen über APIs.

Anwendungsfälle

Die folgenden Beispiele veranschaulichen, wie Speicher verschiedene Arten von Agenten verbessern kann.

  • Ein Kundendienstmitarbeiter, der sich an Ihren Namen, frühere Probleme und Lösungen, Ticketnummern und Ihre bevorzugte Kontaktmethode (Chat, E-Mail oder Rückruf) erinnert. Dieser Speicher hilft Ihnen, wiederholte Informationen zu vermeiden, sodass Unterhaltungen effizienter und befriedigender sind.

  • Ein persönlicher Shopping-Assistent, der sich an Ihre Größe in bestimmten Marken, bevorzugten Farben, früheren Rückgaben und letzten Einkäufen erinnert. Der Agent kann relevante Elemente vorschlagen, sobald Sie eine Sitzung starten und vermeiden, produkte zu empfehlen, die Sie bereits besitzen.

Sicherheitsrisiken

Wenn Sie mit dem Speicher im Foundry Agent Service arbeiten, extrahiert und konsolidiert LLM Informationen auf Basis von Unterhaltungen. Schützen Sie den Speicher vor Bedrohungen wie Prompt-Injektionen und Speicherbeschädigung. Diese Risiken treten auf, wenn falsche oder schädliche Daten im Speicher des Agents gespeichert werden, was die Reaktion und Aktionen des Agents potenziell beeinflusst.

Um Sicherheitsrisiken zu mindern, berücksichtigen Sie die folgenden Aktionen:

  • Verwenden Sie Azure AI Content Safety und ihre prompte Einfügungserkennung: Überprüfen Sie alle Eingabeaufforderungen, die das Arbeitsspeichersystem eingeben oder verlassen, um schädliche Inhalte zu verhindern.

  • Durchführen von Angriffs- und Adversarialtests: Testen Sie Regelmäßig Ihren Agenten auf Injektionsrisiken durch kontrollierte Adversarialübungen.

Einschränkungen und Kontingente

  • Sie müssen Azure OpenAI-Modelle verwenden. Andere Modellanbieter werden derzeit nicht unterstützt.
  • Sie müssen den scope Wert explizit festlegen. Die automatische Population aus der in der Anforderung angegebenen Benutzeridentität wird derzeit nicht unterstützt.
  • Maximale Bereiche pro Speicher: 100
  • Maximal 10.000 Speicher pro Bereich
  • Erinnerungen durchsuchen: 1.000 Anforderungen pro Minute
  • Erinnerungen aktualisieren: 1.000 Anforderungen pro Minute

Pricing

Während der öffentlichen Vorschau sind Speicherfeatures kostenlos. Sie werden nur für die Nutzung der Chat- und Embed-Modelle in Rechnung gestellt.