Pamięć w usłudze Microsoft Foundry Agent Service (wersja zapoznawcza)

Ważne

Pamięć (wersja zapoznawcza) w usłudze Foundry Agent i interfejsie API Memory Store (wersja zapoznawcza) są licencjonowane w ramach subskrypcji Azure i podlegają warunkom mającym zastosowanie do "Wersji zapoznawczych" zawartych w Microsoft Product Terms oraz Dodatku do Danych Produktów i Usług Microsoft, jak również Microsoft Generative AI Services warunkom wersji zapoznawczej zawartym w Uzupełniających warunkach użytkowania dla wersji zapoznawczych Microsoft Azure.

Pamięć w usłudze Microsoft Foundry Agent Service to zarządzane rozwiązanie pamięci długoterminowej. Umożliwia ciągłość agenta między sesjami, urządzeniami i przepływami pracy. Tworząc magazyny pamięci i zarządzając nimi, można tworzyć agentów, którzy zachowują preferencje użytkownika, podtrzymują historię konwersacji i oferują spersonalizowane doświadczenia.

Ten artykuł zawiera omówienie pamięci agenta, w tym jego pojęć, przypadków użycia i ograniczeń. Aby uzyskać instrukcje dotyczące użycia, zobacz Tworzenie i używanie pamięci w usłudze Foundry Agent Service.

Co to jest pamięć?

Pamięć jest trwałą wiedzą przechowywaną przez agenta między sesjami. Ogólnie rzecz biorąc, pamięć agenta należy do dwóch kategorii:

  • Pamięć krótkoterminowa śledzi konwersację bieżącej sesji i utrzymuje natychmiastowy kontekst trwających interakcji. Struktury orkiestracji agentów zwykle zarządzają tą pamięcią w ramach kontekstu sesji.

  • Pamięć długoterminowa zachowuje wiedzę destylowaną między sesjami. Model może odwoływać się i opierać się na poprzednich interakcjach użytkownika w czasie. Pamięć długoterminowa wymaga trwałego systemu, który wyodrębnia, konsoliduje wiedzę i zarządza nią.

Pamięć w usłudze agenta usługi Foundry została zaprojektowana pod kątem pamięci długoterminowej. Wyodrębnia istotne informacje z konwersacji, konsoliduje je w trwałą wiedzę i udostępnia je między sesjami.

Jak działa pamięć

Za kulisami pamięć jest przechowywana jako elementy w magazynie pamięci zarządzanej. System może stosować logikę konsolidacji i rozwiązywania konfliktów, jeśli ma to zastosowanie (na przykład scalić zduplikowane lub nakładające się informacje o profilu użytkownika).

Uwaga

Zachowanie konsolidacji może się różnić w zależności od typu pamięci i może ulec zmianie podczas korzystania z wersji zapoznawczej. Aby uzyskać najnowsze zachowanie, zobacz Create and use memory in Foundry Agent Service (Tworzenie i używanie pamięci w usłudze agenta rozwiązania Foundry).

Pamięć działa w następujących fazach:

  1. Ekstrakcja: Gdy użytkownik wchodzi w interakcję z agentem, system aktywnie wyodrębnia kluczowe informacje z konwersacji, takie jak preferencje użytkownika, fakty i odpowiedni kontekst. Na przykład preferencje, takie jak "uczulony na nabiał" i podsumowania ostatnich działań są identyfikowane i przechowywane.

  2. Konsolidacja: Wyodrębnione wspomnienia są konsolidowane w celu zapewnienia efektywnego i odpowiedniego magazynowania wspomnień. System używa LLM do scalania podobnych lub zduplikowanych tematów, aby agent nie przechowywał powielonych informacji. Sprzeczne fakty, takie jak nowa alergia, są rozwiązywane w celu utrzymania dokładnej pamięci.

  3. Pobieranie: Gdy agent musi przypomnieć sobie informacje, przeszukuje zasoby pamięci w poszukiwaniu najbardziej odpowiednich wspomnień. Dzięki temu agent może szybko przedstawić właściwy kontekst, co sprawia, że rozmowy są naturalne i poinformowane. Aby uzyskać najlepsze wyniki, pobierz stabilne informacje o profilu użytkownika na wczesnym etapie konwersacji, aby agent mógł personalizować odpowiedzi.

Oto przykład sposobu, w jaki pamięć może poprawić i personalizować interakcje między agentem przepisu a użytkownikiem, który wcześniej wyraził alergię na żywność:

Diagram przedstawiający wyodrębnianie, przechowywanie i pobieranie pamięci dla agenta między sesjami.

Wskazówka

Potrzebujesz pomocy przy podejmowaniu decyzji, kiedy używać pamięci? Weź pod uwagę następujące wytyczne:

  • Użyj pamięci dla kontekstu specyficznego dla użytkownika, który będzie się powtarzać w czasie.
  • Użyj bazy wiedzy Foundry IQ, aby oprzeć agenta na wyselekcjonowanych treściach organizacyjnych.
  • Użyj narzędzia wyszukiwania plików , aby wyszukać dokumenty udostępniane przez użytkownika podczas interakcji.

Typy pamięci

Pamięć w Usłudze Agenta Foundry wyodrębnia i przechowuje dwa typy pamięci długoterminowej:

Typ Opis Konfiguracja
Pamięć profilu użytkownika Informacje i preferencje dotyczące użytkownika, takie jak preferowana nazwa, ograniczenia żywieniowe i preferencje językowe. Te wspomnienia są uważane za "statyczne" w odniesieniu do konwersacji, ponieważ zazwyczaj nie zależą od bieżącego kontekstu czatu. Pobieranie pamięci profilu użytkownika raz na początku każdej konwersacji. Określ user_profile_details w magazynie pamięci.
Pamięć podsumowania czatu Destylowane podsumowanie każdego tematu lub wątku omówionego w sesji czatu. Te wspomnienia umożliwiają użytkownikom kontynuowanie konwersacji lub odwołowanie się do wcześniejszych sesji bez powtarzania wcześniejszego kontekstu. Pobierz wspomnienia podsumowania czatu na podstawie bieżącej konwersacji, aby wyświetlić odpowiednie wątki. Ustaw chat_summary_enabled na true w pamięci podręcznej.

Praca z pamięcią

Istnieją dwa sposoby używania pamięci na potrzeby interakcji z agentem:

  • Narzędzie do wyszukiwania pamięci: Przymocuj narzędzie wyszukiwania pamięci do agenta promptu, aby umożliwić odczytywanie i zapisywanie w magazynie pamięci podczas konwersacji. Takie podejście jest idealne w przypadku większości scenariuszy, ponieważ upraszcza zarządzanie pamięcią. Aby uzyskać więcej informacji, zobacz Korzystanie z pamięci za pomocą narzędzia agenta.

  • API magazynu pamięci: Interakcja bezpośrednio z magazynem pamięci przy użyciu API niskiego poziomu. Takie podejście zapewnia większą kontrolę i elastyczność w przypadku zaawansowanych przypadków użycia. Aby uzyskać więcej informacji, zobacz Używanie pamięci za pośrednictwem interfejsów API.

Przypadki użycia

Na poniższych przykładach pokazano, jak pamięć może ulepszyć różne typy agentów.

  • Agent pomocy technicznej klienta, który zapamiętuje Twoje imię i nazwisko, poprzednie problemy i rozwiązania, numery biletów i preferowaną metodę kontaktu (czat, wiadomość e-mail lub połączenie zwrotne). Ta pamięć pomaga uniknąć powtarzania informacji, dzięki czemu konwersacje są bardziej wydajne i satysfakcjonujące.

  • Osobisty asystent zakupów, który pamięta twój rozmiar w określonych markach, preferowanych kolorach, poprzednich zwrotach i ostatnich zakupach. Agent może sugerować odpowiednie elementy zaraz po rozpoczęciu sesji i unikać rekomendowania produktów, które już posiadasz.

Zagrożenia bezpieczeństwa

Podczas pracy z pamięcią w usłudze Foundry Agent, duży model językowy (LLM) wyodrębnia i konsoliduje dane na podstawie konwersacji. Ochrona pamięci przed zagrożeniami, takimi jak wstrzyknięcie monitu i uszkodzenie pamięci. Te zagrożenia pojawiają się, gdy nieprawidłowe lub szkodliwe dane są przechowywane w pamięci agenta, potencjalnie wpływając na odpowiedzi i akcje agenta.

Aby ograniczyć ryzyko związane z zabezpieczeniami, rozważ następujące działania:

  • Użyj Bezpieczeństwo zawartości platformy Azure AI i jego prompt wykrywania iniekcji: Zweryfikuj wszystkie monity wprowadzane lub opuszczające system pamięci, aby zapobiec złośliwej zawartości.

  • Przeprowadź testowanie ataków i adwersyjne: Regularnie poddawaj swojego agenta stresującym testom pod kątem luk w zabezpieczeniach związanych ze wstrzykiwaniem poprzez kontrolowane ćwiczenia adwersyjne.

Ograniczenia i limity przydziału

Następujące ograniczenia i limity mają zastosowanie do pamięci w Foundry Agent Service. Aby uzyskać szersze ograniczenia i limity przydziału, zobacz Foundry Agent Service limity, ograniczenia i wsparcie regionalne.

Ograniczenia

  • Pamięć obecnie wymaga zgodnych wdrożeń modeli czatu i osadzania w Azure OpenAI. Aby uzyskać listę obsługiwanych modeli, zobacz modele Foundry sprzedawane bezpośrednio przez Azure.
  • W przypadku interfejsów API pamięci niskiego poziomu należy ustawić scope jawnie w każdym żądaniu. Automatyczne rozpoznawanie zakresu na podstawie tożsamości obiektu wywołującego jest obsługiwane tylko wtedy, gdy używasz narzędzia wyszukiwania pamięci z scope ustawionym na {{$userId}}. Aby uzyskać więcej informacji, zobacz Omówienie zakresu.

Kontyngentów

  • Maksymalne zakresy dla magazynu pamięci: 100
  • Maksymalna liczba pamięci na zakres: 10 000
  • Wyszukiwanie wspomnień: 1000 żądań na minutę
  • Aktualizowanie pamięci: 1000 żądań na minutę

Dostępność regionów

Pamięć jest dostępna w następujących regionach:

  • Australia Wschodnia
  • Brazylia Południowa
  • Kanada Wschodnia
  • Wschodnie stany USA 2
  • Francja Środkowa
  • Włochy Północne
  • Japonia Wschodnia
  • Korea Środkowa
  • Północno-środkowe stany USA
  • Norwegia Wschodnia
  • Północna Republika Południowej Afryki
  • Indie Południowe
  • Szwecja Środkowa
  • Szwajcaria Północna
  • Północne Zjednoczone Emiraty Arabskie
  • Południowe Zjednoczone Królestwo
  • Zachodnie stany USA
  • Zachodnie stany USA 2
  • Zachodnie stany USA 3

Ceny

Pamięć jest obecnie dostępna w publicznej wersji próbnej. Ceny i rozliczenia pamięci oraz interfejs API magazynu pamięci mogą ulec zmianie podczas korzystania z wersji zapoznawczej.

Opłaty są naliczane za użycie konfigurowanych modeli czatu bazowego i osadzania. Aby uzyskać bieżące szczegóły cennika, zobacz Cennik usługi agenta Foundry.