Память в службе агента Microsoft Foundry (предварительный просмотр)

Важно

Память (предварительная версия) в службе агент Foundry и API Магазина памяти (предварительная версия) лицензируются вам в рамках подписки Azure и подпадают под условия, применимые к "Предварительным версиям" в Условиях продуктов Microsoft и Дополнении к защите данных продуктов и служб Microsoft, а также условиям по предварительным версиям формируемых ИИ в Дополнительных условиях использования для предварительных версий Microsoft Azure.

Память в агенте службы Microsoft Foundry — это долгосрочное, управляемое решение в области памяти. Он обеспечивает непрерывность работы агентов на разных сеансах, устройствах и в рабочих процессах. Создавая хранилища памяти и управляя ими, можно создавать агенты, которые сохраняют пользовательские предпочтения, поддерживают журнал бесед и предоставляют персонализированные возможности.

В этой статье представлен обзор памяти агента, включая ее понятия, варианты использования и ограничения. Инструкции по использованию см. в статье "Создание и использование памяти в службе агента Foundry".

Что такое память?

Память — это постоянные знания, сохраненные агентом в сеансах. Как правило, память агента входит в две категории:

  • Краткосрочная память отслеживает беседу текущего сеанса и поддерживает немедленный контекст для текущих взаимодействий. Платформы оркестрации агентов обычно управляют этой памятью в рамках контекста сеанса.

  • Долгосрочная память сохраняет обобщенные знания между сеансами. Модель может со временем вспоминать предыдущие взаимодействия с пользователем и использовать их для дальнейшего развития. Для долгосрочной памяти требуется постоянная система, которая извлекает, объединяет и управляет знаниями.

Память в службе агента Foundry предназначена для долговременного хранения информации. Он извлекает значимые сведения из бесед, объединяет его в устойчивые знания и делает его доступным для сеансов.

Как работает память

За кулисами воспоминания хранятся в виде элементов в управляемом хранилище памяти. Система может применять логику консолидации и разрешения конфликтов, если применимо (например, для слияния повторяющихся или перекрывающихся сведений профиля пользователя).

Примечание

Поведение консолидации может отличаться по типу памяти и может изменяться во время предварительной версии. Сведения о последнем поведении см. в статье "Создание и использование памяти в службе агента Foundry".

Память работает на следующих этапах:

  1. Извлечения: Когда пользователь взаимодействует с агентом, система активно извлекает ключевые сведения из беседы, такие как предпочтения пользователей, факты и соответствующий контекст. Например, предпочтения, такие как "аллергия на молочные продукты" и сводки последних действий, определяются и хранятся.

  2. Консолидация: Извлеченные воспоминания консолидируются для поддержания хранилища памяти эффективным и релевантным. Система использует LLM для слияния аналогичных или повторяющихся разделов, чтобы агент не сохранял избыточные сведения. Конфликтующие факты, такие как новая аллергия, устраняются для поддержания точной памяти.

  3. Извлечение: Когда агенту нужно воспроизвести информацию, он ищет в хранилище памяти наиболее релевантные воспоминания. Это позволяет агенту быстро отображать правильный контекст, обеспечивая, чтобы беседы были естественными и информированными. Для достижения наилучших результатов стабильно извлекайте информацию профиля пользователя в начале беседы, чтобы агент мог персонализировать ответы.

Ниже приведен пример того, как память может улучшить и персонализировать взаимодействие между агентом рецепта и пользователем, который ранее выразил аллергию на пищу:

Диаграмма, показывающая извлечение, хранение и восстановление памяти агента на протяжении сеансов.

Совет

Нужна помощь в принятии решений о том, когда следует использовать память? Рассмотрим следующие рекомендации:

  • Используйте память для контекста конкретного пользователя, который сохраняется с течением времени.
  • Используйте базу знаний Foundry IQ, чтобы обеспечить вашего агента основами, основанными на тщательно отобранном содержимом организации.
  • Используйте средство поиска файлов для поиска предоставленных пользователем документов во время взаимодействия.

Типы памяти

Память, обрабатываемая службой агента Foundry, обеспечивает извлечение и хранение двух типов долгосрочной памяти:

Тип Описание Конфигурации
Память профиля пользователя Сведения и предпочтения пользователя, такие как предпочтительное имя, диетическое ограничение и предпочтения языка. Эти воспоминания считаются статическими в отношении беседы, так как они обычно не зависят от текущего контекста чата. Извлекайте воспоминания профиля пользователя единожды в начале каждой беседы. Укажите user_profile_details в хранилище памяти.
Сводная память чата Сводка по каждому разделу или потоку, охватываемому в сеансе чата. Эти воспоминания позволяют пользователям продолжать беседы или ссылаться на предыдущие сеансы, не повторяя более ранний контекст. Получайте обзор воспоминаний чата, исходя из текущего разговора, для отображения соответствующих тем. Установите значение chat_summary_enabledtrue в хранилище памяти.

Работа с памятью

Существует два способа использования памяти для взаимодействия с агентом:

  • Средство поиска памяти: Подключите средство поиска памяти к агенту запроса, чтобы включить чтение и запись в хранилище памяти во время бесед. Этот подход идеально подходит для большинства сценариев, так как упрощает управление памятью. Дополнительные сведения см. в разделе "Использование воспоминаний с помощью средства агента".

  • API хранилища памяти: Взаимодействуйте непосредственно с хранилищем памяти с помощью низкоуровневых API. Этот подход обеспечивает больший контроль и гибкость для расширенных вариантов использования. Дополнительные сведения см. в статье "Использование воспоминаний через API".

Варианты использования

В следующих примерах показано, как память может улучшить различные типы агентов.

  • Агент поддержки клиентов, который запоминает ваше имя, предыдущие проблемы и решения, номера билетов и предпочитаемый метод контакта (чат, электронная почта или обратный вызов). Эта память помогает избежать повторения информации, поэтому беседы являются более эффективными и удовлетворяющими.

  • Личный помощник по покупкам, который запоминает ваш размер в определенных брендах, предпочитаемые цвета, прошлые возвраты и последние покупки. Агент может предлагать соответствующие элементы сразу после начала сеанса и избегать рекомендаций продуктов, которые вы уже владеете.

Риски безопасности

При работе с оперативной памятью в Foundry Agent Service большая языковая модель (LLM) извлекает и объединяет данные на основе бесед. Защита памяти от угроз, таких как внедрение команд и повреждение памяти. Эти риски возникают, когда неправильные или вредные данные хранятся в памяти агента, потенциально влияя на ответы и действия агента.

Чтобы снизить риски безопасности, рассмотрите следующие действия:

  • Используйте Безопасность содержимого ИИ Azure и его систему обнаружения внедрения запросов: проверьте все запросы, входящие в систему памяти или выходящие из нее, чтобы предотвратить вредоносное содержимое.

  • Выполнение атак и враждебного тестирования: Регулярно проводите стресс-тестирование вашего агента на уязвимости инъекции через контролируемые враждебные упражнения.

Ограничения и квоты

Следующие ограничения и квоты применяются к памяти в службе агента Foundry. Более широкие ограничения и квоты см. в разделе "Ограничения службы агентов Foundry", "Квоты" и "Региональная поддержка".

Ограничения

  • В настоящее время для модуля памяти требуются совместимые развертывания моделей чата и встраивания в Azure OpenAI. Список поддерживаемых моделей см. в разделе Foundry Models, предоставляемых непосредственно Azure.
  • Для API низкоуровневой памяти необходимо явно задать scope в каждом запросе. Автоматическое определение области видимости по удостоверению вызывающего пользователя поддерживается только при использовании средства поиска памяти с scope установленным значением {{$userId}}. Дополнительные сведения см. в разделе "Общие сведения о области".

Квоты

  • Максимальное количество зон памяти для хранилища памяти: 100
  • Максимальное количество памяти на область: 10 000
  • Память поиска: 1000 запросов в минуту
  • Обновление памяти: 1000 запросов в минуту

Доступность региона

Память доступна в следующих регионах:

  • Восточная Австралия
  • Южная Бразилия
  • Восточная Канада
  • Восточная часть США 2
  • Центральная Франция
  • Италия Север
  • Восточная Япония
  • Центральная Корея
  • Северная часть США
  • Восточная Норвегия
  • Север Южной Африки
  • Южная Индия
  • Центральная Швеция
  • Северная Швейцария
  • Север ОАЭ
  • Южная Часть Великобритании
  • Западная часть США
  • Западная часть США 2
  • Западная часть США 3

Цены

Память в настоящее время находится в общедоступной предварительной версии. Цены и выставление счетов за память и API хранилища памяти могут изменяться во время предварительной версии.

С вас взимается плата за использование базовых моделей чата и встраивания, которые вы настраиваете. Сведения о текущих ценах см. в разделе "Цены на службу агента Foundry".