Поделиться через


Организовать эффективное пространство Genie

Цель курирования пространства Genie — создать среду, в которой бизнес-пользователи могут задавать вопросы на естественном языке и получать точные, согласованные ответы на основе своих данных. Genie spaces использует расширенные модели, которые создают сложные запросы и понимают общие знания о мире.

Большинство бизнес-вопросов являются предметными, поэтому роль куратора пространства заключается в том, чтобы преодолеть разрыв между общими мировыми знаниями и специализированным языком, используемым в определенном домене или определенной компанией. Кураторы используют метаданные и инструкции, чтобы Генни точно интерпретировала и отвечала на вопросы бизнес-пользователей. В этой статье описаны рекомендации и принципы разработки успешного пространства.

Рекомендации по определению нового пространства

В следующих разделах описаны рекомендации по созданию эффективного пространства.

Начало с малого

Обработка пространства Genie — это итеративный процесс. При создании нового пространства начните как можно меньше, с минимальными инструкциями и ограниченным набором вопросов для ответа. Затем вы можете добавлять элементы по мере итерации на основе отзывов и мониторинга. Этот подход помогает упростить создание и обслуживание пространства и позволяет эффективно управлять им в ответ на реальные потребности пользователей.

Используйте следующие рекомендации, чтобы создать небольшое пространство Genie:

  • Оставайтесь сосредоточенными: включите только таблицы, необходимые для ответа на вопросы, которые должно обрабатывать пространство. Нацелитесь на пять или меньше таблиц. Чем более сфокусирован ваш выбор, тем лучше. Сужение фокуса на небольшом количестве данных — оптимальный подход, поэтому ограничьте количество столбцов в используемых таблицах.
  • Планирование итерации. Начните с минимальной настройки пространства, фокусируясь на основных таблицах и основных инструкциях. Добавьте более подробные рекомендации и примеры по мере того, как вы уточняете пространство с течением времени, а не стремитесь к совершенству изначально.
  • Основывайтесь на хорошо аннотированных таблицах: Genie использует имена столбцов и описания Unity Catalog для создания ответов. Очистка имен и описаний столбцов помогает создавать высококачественные ответы. Описания столбцов должны предлагать точные контекстные сведения. Избегайте неоднозначных или ненужных подробностей. Проверьте все описания, созданные ИИ, для точности и ясности, и используйте их только в том случае, если они соответствуют тому, что вы будете предоставлять вручную.

Пусть эксперт в области определит пространство

Эффективный создатель пространства должен понять данные и аналитические сведения, которые можно извлечь из него. Аналитики данных, знающие SQL, как правило, обладают необходимыми знаниями и навыками для курирования пространства.

Определение цели пространства

Определение конкретной аудитории и цели вашего пространства помогает решить, какие данные, инструкции и тестовые вопросы следует использовать. Пространство должно отвечать на вопросы для конкретной темы и аудитории, а не общие вопросы в различных доменах. Вы можете упростить наборы данных, предварительно присоединив таблицы и удалив ненужные столбцы перед добавлением данных в пространство. При добавлении данных в пространство, сосредоточьтесь на его определенной цели. Скрытие любых столбцов, которые могут быть запутаны или неприменимы. См. статью "Показать или скрыть столбцы".

Добавление метаданных и синонимов

Синонимы столбцов и пользовательские описания можно добавить в данные в пространстве Genie. Эти метаданные ограничены пространством Genie и не перезаписывают метаданные, хранящиеся в каталоге Unity. Качественные описания столбцов и синонимы помогают Genie лучше понять столбец, выбрать его для соответствующих вопросов и написать более точный SQL. См. раздел "Изменить метаданные столбца".

Включение выборки данных Genie

Это важно

Эта функция доступна в общедоступной предварительной версии.

Администратор рабочей области может включить выборку данных Genie для вашего рабочего пространства. Выборка данных улучшает точность работы Genie, извлекая значения из наборов данных в соответствующем пространстве, что помогает ему лучше сопоставлять пользовательские запросы с правильными столбцами и значениями. При включении Genie автоматически выполняет выборку значений из таблиц при создании пространства. Вы можете управлять выбором столбцов, для которых собираются данные. См. раздел "Управление объектами данных" и Используйте выборку значений для повышения точности Genie.

Укажите ориентированные примеры и инструкции

Пространства Genie работают наиболее эффективно с ограниченным, нацеленным набором инструкций. Databricks рекомендует использовать примеры SQL-запросов для предоставления инструкций в вашем контексте. Примеры запросов SQL позволяют Genie сопоставлять запросы пользователей с проверенными запросами SQL и учиться на примерах, чтобы ответить на связанные вопросы. Смотрите примеры запросов и функций SQL.

Для контекста, который следует применять глобально в пространстве Genie, небольшой, хорошо упорядоченный набор инструкций обычного текста также может помочь поддерживать релевантность и повысить качество отклика. Слишком много инструкций может снизить эффективность, особенно в более длительных беседах, потому что Genie может бороться с приоритетом наиболее важных рекомендаций. Дополнительные сведения см. в разделе "Указание инструкций".

Тестирование и настройка

Вы должны быть первым пользователем вашего пространства. После создания нового пространства начните задавать вопросы. Внимательно изучите SQL, созданный в ответ на ваши вопросы. Если Genie неправильно интерпретирует данные, вопросы или бизнес-jargon, можно вмешаться, изменив созданный SQL или предоставив другие конкретные инструкции. Продолжайте тестирование и редактирование, пока не получите надежные ответы.

После того как вы рассмотрели вопрос, вы можете добавить его в качестве эталонного вопроса, который можно использовать для систематического тестирования и оценки вашего пространства на общую точность. Вы можете использовать варианты и различные выражения вопросов для тестирования ответов Genie. См. использование бенчмарков в пространстве Genie.

Сведения об устранении ошибок см. в статье "Устранение неполадок ".

Проведение тестирования пользователей

После проверки качества ответа с помощью тестирования набирайте бизнес-пользователя, чтобы попробовать пространство Genie. Используйте следующие рекомендации для обеспечения плавного взаимодействия пользователей и сбора отзывов о текущем улучшении:

  • Установите ожидания, что их задача заключается в том, чтобы помочь улучшить комнату.
  • Попросите их сосредоточить тестирование на конкретной теме и вопросах, для которых предназначено это пространство.
  • Если они получают неправильный ответ, рекомендуем пользователям добавлять дополнительные инструкции и уточнения в чате, чтобы уточнить ответ. Если указан правильный ответ, он должен изменить окончательный запрос, чтобы свести к минимуму аналогичные ошибки в будущих взаимодействиях.
  • Сообщите пользователям, чтобы они увеличивали или уменьшали рейтинг ответов, используя встроенный механизм обратной связи.
  • Пригласите пользователей поделиться дополнительными отзывами и неразрешенными вопросами непосредственно с авторами пространства. Авторы и редакторы могут использовать отзывы для уточнения инструкций, примеров и доверенных ресурсов.

Рекомендуется предоставлять учебные материалы или письменный документ с рекомендациями по тестированию помещения и предоставления отзывов. Направьте бизнес-пользователей к использованию пространства Genie для изучения бизнес-данных, чтобы помочь им начать работу с новым пространством Genie.

Как бизнес-пользователи тестируют пространство, редакторы пространства могут видеть вопросы, которые они задавали на вкладке "Мониторинг ". Продолжайте добавлять контекст, чтобы помочь Genie правильно интерпретировать вопросы и данные, чтобы предоставить точные ответы. Дополнительные сведения о мониторинге пространств Genie см. в разделе "Мониторинг пространства". Журналы аудита также можно использовать для мониторинга отзывов и обзора запросов в пространстве Genie. См. статью "Мониторинг использования ИИ и бизнес-аналитики" с журналами аудита и оповещениями.

Примечание.

Бизнес-пользователи должны быть членами исходной рабочей области для доступа к вашему пространству. Ознакомьтесь с необходимыми разрешениями , чтобы узнать, как предоставить соответствующие разрешения для взаимодействия с пространством.

Устранение неполадок

В следующих разделах описано, как устранить распространенные проблемы.

Неправильно понятый бизнес жаргон

Большинство компаний или доменов имеют конкретную сокращенную информацию о событиях, связанных с бизнесом. Например, при обращении к году это всегда может означать финансовый год, и этот финансовый год может начинаться в феврале или марте вместо января. Чтобы Genie мог ответить на эти вопросы естественно и точно, включите инструкции, которые явно сопоставляют ваш бизнес-жаргон с словами и понятиями, которые Genie может понять. См. Предоставьте инструкции.

Неправильное использование таблицы или столбца

Если Genie пытается извлечь данные из неправильной таблицы или выполнить анализ по неправильным столбцам, можно настроить данные одним из следующих способов:

  • Укажите четкое и точное описание. Проверьте таблицы и связанные метаданные, чтобы убедиться, что терминология, используемая там, соответствует терминологии пользователей в отправленных вопросах. Если это не так, укажите описание или добавьте инструкцию, которая сопоставляет терминологию, используемую в таблице, с терминологией, используемой в этом вопросе.
  • Добавление примеров запросов: укажите примеры запросов SQL, которые Genie может использовать для изучения того, как отвечать на определенные вопросы. См. Предоставьте инструкции.
  • Удаление таблиц или столбцов из рабочей области: Некоторые таблицы могут включать перекрывающиеся столбцы или понятия, что затрудняет Genie определение данных для использования в ответе. По возможности удалите ненужные или перекрывающиеся таблицы или столбцы. Чтобы быстро скрыть столбцы из пользовательского интерфейса пространства Genie, не изменяя базовые объекты данных, см. статью "Показать или скрыть столбцы".

Ошибки фильтрации

Созданные запросы часто включают WHERE условие для фильтрации результатов в соответствии с определенным значением. Если Genie не имеет доступа к значениям данных, он может установить WHERE условие, чтобы фильтровать неправильное значение. Например, он может попытаться сопоставить имя "Калифорния", когда в таблице используются сокращения, такие как "ЦС".

Для таких ситуаций попробуйте одну из следующих стратегий:

  • При необходимости администратор рабочей области должен включить выборку данных Genie на странице Предварительные просмотры. Это включает функции, которые помогают Genie лучше сопоставлять пользовательские запросы со значениями столбцов. См. раздел "Использование выборки значений" для улучшения точности Genie.
  • Убедитесь, что соответствующие столбцы имеют включенные примеры значений и словари значений. Если новые данные добавлены в соответствующие таблицы, обновите значения. См. статью "Просмотр столбцов".

Неправильные соединения

Если ссылки на внешние ключи не определены в каталоге Unity, ваше пространство может не знать, как объединить разные таблицы вместе.

Попробуйте реализовать одно или несколько следующих решений:

  • При возможности определите ссылки на внешние ключи в каталоге Unity. См. пункта CONSTRAINT.
  • Укажите примеры запросов, в которых вы объединяете таблицы стандартными способами.
  • Если внешние связи ключей таблиц не указаны в каталоге Unity, задокументируйте их в инструкциях.

Если ни одно из этих действий не устраняет проблему, предварительно объедините таблицу в представление и используйте его вместо этого как входные данные для пространства. Эта стратегия полезна для более сложных сценариев операций соединения, таких как самосоединения.

Комментарии к столбцам не синхронизируются из внешних таблиц

Azure Databricks не управляет метаданными, данными или семантикой для записи в внешние таблицы. В зависимости от исходной таблицы комментарии могут быть недоступны из Azure Databricks. Чтобы сделать комментарии доступными, Azure Databricks рекомендует выполнить одно из следующих действий:

  • Измените метаданные столбца в пользовательском интерфейсе пространства Genie. Измененные метаданные применяются только к пространству Genie, в котором она написана. См. раздел "Изменить метаданные столбца".
  • Создайте материализованные представления поверх федеративных таблиц. Вы можете добавлять и изменять примечания к материализованному представлению, как и в управляемой таблице. Это представление можно повторно использовать в нескольких пространствах Genie. Дополнительные сведения о загрузке данных из внешних таблиц в материализованное представление см. в разделе "Загрузка данных из внешних таблиц с материализованными представлениями". Дополнительные сведения о работе с материализованными представлениями см. в разделе "Материализованные представления".

Проблемы с вычислением метрик

Способ вычисления и свертки метрик может быть произвольно сложным и охватывать множество бизнес-деталей, которые не учитывает ваша сфера. Это может привести к неправильным отчетам.

Попробуйте реализовать одно или несколько следующих решений:

  • Если метрики агрегируются из базовых таблиц, укажите примеры запросов SQL, которые вычисляют каждое значение свертки.
  • Если метрики были предварительно вычислены и находятся в агрегированных таблицах, объясните это в комментариях к таблице. Укажите допустимые агрегации для каждой метрики, если метрики в этой таблице можно дополнительно агрегировать.
  • Если SQL, который вы пытаетесь создать, очень сложный, попробуйте создать представления данных, которые уже агрегировали метрики для вашего пространства.

Неправильные вычисления на основе времени

Genie может не всегда иметь возможность выводить часовой пояс, представленный в данных или часовой пояс, в котором необходимо выполнить анализ, если вы явно не предоставите дополнительные рекомендации.

Включите более явные инструкции, подробные сведения о исходном исходном часовом поясе, функции преобразования и целевом часовом поясе. В следующих примерах показано, как изменить общие инструкции для более надежных преобразований часовых поясов:

  • Всегда преобразовывайте время в определенный часовой пояс. В этом примере предположим, что исходная метка времени является UTC, и если вы хотите получить результаты в часовом поясе America/Los_Angeles. Добавьте следующее к инструкциям, заменив <timezone-column> на соответствующее имя столбца:
    • Часовые пояса в таблицах находятся в UTC.
    • Преобразуйте все часовые пояса с помощью следующей функции: convert_timezone('UTC', 'America/Los_Angeles', <timezone-column>).
  • Преобразуйте форматы даты и времени, отличные от UTC: если часовой пояс по умолчанию установлен в рабочей области, но пользователи в Лос-Анджелесе должны ссылаться на UTC для определенного набора записей, добавьте следующие инструкции в общие настройки рабочего пространства.
    • Чтобы ссылаться на сегодня, используйте date(convert_timezone("UTC", "Америка/Los_Angeles", current_timestamp())

Более подробную информацию и синтаксис см. в функции convert_timezone под номером.

Игнорировать инструкции

Даже если вы объяснили таблицы и столбцы в комментариях и предоставили общие инструкции, ваше пространство может по-прежнему не использовать их правильно.

Попробуйте одну или несколько следующих стратегий:

  • Укажите примеры запросов, которые правильно используют таблицы. Примеры запросов особенно эффективны для обучения вашей системы тому, как использовать ваши данные.
  • Скройте неуместные столбцы в пространстве Genie. См. статью "Показать или скрыть столбцы".
  • Создайте представления из таблиц, которые предоставляют более простое представление данных.
  • Просмотрите инструкции и попробуйте сосредоточить пространство, удалив неуместные таблицы или инструкции.
  • Попробуйте начать новый чат. Предыдущие взаимодействия могут влиять на ответы Genie в любом чате, но запуск нового чата дает новую отправную точку для тестирования новых инструкций.

Проблемы с производительностью

Когда Genie нужно создать исключительно длинные запросы или текстовые ответы, это может занять много времени для ответа или даже времени ожидания во время этапа мышления.

Попробуйте выполнить одно или несколько следующих действий, чтобы повысить производительность:

Ненадежные ответы на критически важные вопросы

Используйте доверенные ресурсы для предоставления проверенных ответов на определенные вопросы, которые вы ожидаете, что пользователи будут задавать. См. Использование доверенных ресурсов в пространствах AI/BI Genie.

Предупреждение об ограничении токенов

Маркеры — это основные единицы текста, который Genie использует для обработки и понимания языка. Текст, включенный в виде инструкций или метаданных в пространстве Genie, преобразуется в маркеры. Если количество маркеров в вашем пространстве приближается к ограничению, продукт уведомляет вас предупреждениями. Genie применяет смарт-фильтрацию контекста для выбора маркеров, представляющих метаданные и некоторые типы инструкций, включенных в пространство Genie. Даже если превышено ограничение, пространство должно продолжать создавать ответы на вопросы.

Если пространство Genie приближается к пределу токенов, Genie может предпочесть включить только части схемы таблицы и наиболее важные инструкции для ответа на вопрос. Это может снизить качество отклика, если важный контекст отфильтровывается. Рассмотрим следующие методики, чтобы уменьшить количество маркеров:

  • Удаление ненужных столбцов: лишние столбцы в ваших таблицах могут значительно увеличить использование токенов. Возможно, создайте представления, чтобы исключить избыточные или неуклюжие поля из необработанных таблиц. Кроме того, можно скрыть ненужные столбцы в пространстве Genie. См. статью "Показать или скрыть столбцы".
  • Упрощение описания столбцов. Хотя описания столбцов важны, избегайте дублирования данных, которые уже передаются именами столбцов. Например, если столбец называется account_name, описание, например "имя учетной записи", может быть избыточным и может быть опущено.
  • Изменение метаданных столбцов в пространстве Genie: см. статью "Изменение метаданных столбца ", чтобы узнать, как изменять описания и предоставлять синонимы в метаданных столбцов.
  • Примеры инструкций SQL: включите разнообразный диапазон примеров инструкций SQL для покрытия различных типов вопросов, но удалите перекрывающиеся или избыточные примеры.
  • Упрощение инструкций. Убедитесь, что ваши инструкции понятны и кратки. Избегайте ненужных слов.

Учетная запись не активирована для межрегиональной обработки.

Genie — это назначенная служба, управляемая Azure Databricks. Назначенные службы используют Databricks Geos для управления местоположением данных. Данные нельзя обрабатывать в том же географическом регионе, что и рабочая область для некоторых регионов. Если ваша рабочая область находится в одном из этих регионов, перекрестная обработка должна быть включена администратором учетной записи.

Достижение ограничений пропускной способности

При доступе к пространствам Genie через пользовательский интерфейс Azure Databricks пропускная способность ограничена 20 вопросами в минуту на рабочую область во всех пространствах Genie.

При доступе к пространствам Genie через бесплатный уровень API для беседы (общедоступная версия) пропускная способность, в лучшем случае, ограничена пятью вопросами в минуту для каждой рабочей области, применимо ко всем пространствам Genie. Ознакомьтесь с API общения Genie для интеграции Genie в приложения.