Краткое руководство. Создание хранилища знаний на портале Azure
В этом кратком руководстве описано, как создать хранилище знаний, которое служит репозиторием для выходных данных, созданных из конвейера обогащения ИИ в Службе поиска ИИ Azure. Хранилище знаний предоставляет созданное содержимое в служба хранилища Azure для рабочих нагрузок, отличных от поиска.
Сначала вы настроили некоторые примеры данных в служба хранилища Azure. Затем вы запустите мастер импорта данных , чтобы создать конвейер обогащения, который также создает хранилище знаний. Хранилище знаний содержит исходное содержимое, извлеченное из источника данных (отзывы клиентов отеля), а также содержимое, созданное СИ, которое включает метку тональности, извлечение ключевых фраз и перевод комментариев клиентов, не являющихся английскими.
Необходимые компоненты
Прежде чем приступить к работе, подготовьте указанные ниже необходимые компоненты:
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно .
Поиск по искусственному интеллекту Azure. Создайте новую или найдите существующую службу в своей учетной записи. Вы можете использовать бесплатную службу для выполнения инструкций, описанных в этом кратком руководстве.
служба хранилища Azure; Создайте учетную запись или найдите существующую учетную запись. Необходимо использовать учетную запись типа StorageV2 (общего назначения версии 2).
Примеры данных, размещенных в служба хранилища Azure:
Скачайте HotelReviews_Free.csv. Этот CSV-файл содержит 19 частей отзывов клиентов об одном отеле (происходит из Kaggle.com). Файл находится в репозитории с другими примерами данных. Если вы не хотите весь репозиторий, скопируйте необработанное содержимое и вставьте его в приложение электронной таблицы на устройстве.
Отправьте файл в контейнер BLOB-объектов в служба хранилища Azure.
В этом кратком руководстве также используются службы ИИ Azure для обогащения ИИ. Так как рабочая нагрузка настолько мала, службы ИИ Azure касаются за кулисами для бесплатной обработки до 20 транзакций. Это означает, что вы можете выполнить это упражнение, не создавая дополнительный ресурс azure AI с несколькими службами.
Запуск мастера
Войдите на портал Azure с помощью своей учетной записи Azure.
Найдите службу поиска и на странице обзора выберите "Импорт данных " на панели команд, чтобы создать хранилище знаний на четырех шагах.
Шаг 1. Создание источника данных
Поскольку данные представляют собой несколько строк в одном CSV-файле, используйте режим анализа, чтобы каждый найденный документ находился в отдельной строке.
В разделе Подключение к данным выберите элемент Хранилище BLOB-объектов Azure.
В качестве имени укажите "hotel-reviews-ds".
Чтобы извлечь данные, выберите "Содержимое" и "Метаданные".
Для параметра Режима анализа выберите Текстовый файл с разделителями, а затем установите флажок Первая строка содержит заголовок. Убедитесь, что в качестве символа разделителя задана запятая (,).
В строке подключения выберите существующее подключение, если учетная запись хранения находится в той же подписке. В противном случае вставьте строка подключения в учетную запись служба хранилища Azure.
Строка подключения может быть полным доступом, имея следующий формат:
DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net
Кроме того, строка подключения может ссылаться на управляемое удостоверение, если он настроен и назначен роль в служба хранилища Azure:
ResourceId=/subscriptions/<YOUR-SUBSCRIPTION-ID>/resourceGroups/<YOUR-RESOURCE-GROUP-NAME>/providers/Microsoft.Storage/storageAccounts/<YOUR-ACCOUNT-NAME>;
В разделе Контейнеры введите имя контейнера больших двоичных объектов, содержащего данные ("hotel-reviews").
Теперь страница должна выглядеть, как на снимке экрана ниже.
Перейдите к следующей странице.
Шаг 2. Добавление навыков
На этом шаге мастера добавьте навыки для обогащения с помощью ИИ. Исходные данные состоят из отзывов клиентов на английском и французском. К навыкам, связанным с этим набором данных, относятся извлечение ключевых фраз, обнаружение тональности и преобразование текста. На следующем шаге эти обогащения "проецируются" в хранилище знаний в виде таблиц Azure.
Разверните службы Azure AI. По умолчанию выбраны бесплатные (ограниченные обогащения). Этот ресурс можно использовать, так как число записей в HotelReviews-Free.csv равно 19, а этот бесплатный ресурс позволяет выполнять до 20 транзакций в день.
Разверните узел Добавление обогащений.
В качестве имени набора навыков введите "hotel-reviews-ss".
В поле исходных данных выберите reviews_text.
Для параметра Уровень детализации обогащения выберите значение Страницы (фрагменты из 5000 симв.).
Для параметра Когнитивные навыки для текста выберите следующие навыки:
- Извлечение ключевых фраз
- перевод текста;
- Распознавание языка
- Определение тональности
Ваша страница должна выглядеть примерно так:
Прокрутите вниз и разверните раздел Сохранить обогащения в хранилище знаний.
Щелкните элемент Choose an existing connection (Выбрать существующее подключение), а затем выберите учетную запись хранения Azure. Откроется страница "Контейнеры", чтобы создать контейнер для проекций. Рекомендуем использовать соглашение об именовании префиксов, например "kstore-hotel-reviews", чтобы исходное содержимое можно было отличить от содержимого хранилища знаний.
Вернувшись к мастеру импорта данных, выберите следующие проекции таблиц Azure. Мастер всегда предлагает проекцию Документы. Другие проекции предлагаются в зависимости от выбранного навыка (например , ключевых фраз) или детализации обогащения (Страницы):
- Документы
- Страницы
- Ключевые фразы
На следующем снимке экрана показаны варианты проекции таблицы в мастере:
Перейдите к следующей странице.
Шаг 3. Настройка индекса
На этом шаге мастера будет настроен индекс для необязательных запросов полнотекстового поиска. Вам не нужен индекс поиска для хранилища знаний, но индексатору требуется один для выполнения.
На этом шаге мастер примеров источника данных для вывода полей и типов данных. Необходимо только выбрать атрибуты для нужного поведения. Например, атрибут извлечения позволяет службе поиска возвращать значение поля, а атрибут Searchable включает полнотекстовый поиск в поле.
В качестве имени индекса введите "hotel-reviews-idx".
Для атрибутов примите значения по умолчанию: извлекаемые и доступные для поиска новые поля, создаваемые конвейером.
Индекс должен выглядеть примерно так, как показано на следующем рисунке. Так как список длинный, на изображении видны не все поля.
Перейдите к следующей странице.
Шаг 4. Настройка и запуск индексатора
На этом шаге мастера настройте индексатор, который объединяет источник данных, набор навыков и индекс, определенный на предыдущих шагах мастера.
В качестве имени укажите "hotel-reviews-idxr".
В поле Расписание следует использовать значение по умолчанию Один раз.
Выберите Отправить, чтобы запустить индексатор. Извлечение данных, индексирование и применение когнитивных навыков выполняются на этом шаге.
Шаг 5. Проверка состояния
На странице Обзор откройте вкладку Индексаторы в середине страницы, а затем выберите элемент hotels-reviews-idxr. Через одну-две минуты состояние должно измениться с "Выполняется" на "Успешно" без ошибок и предупреждений.
Проверка таблиц в портал Azure
В портал Azure откройте учетную запись хранения, используемую для создания хранилища знаний.
В левой области навигации учетной записи хранения выберите браузер хранилища, чтобы просмотреть новые таблицы.
Вы должны увидеть три таблицы — по одной для каждой проекции, которая была предложена в разделе "Сохранение результатов обогащения" на странице "Добавление обогащений".
"hotelReviewssDocuments" содержит все узлы дерева обогащения документа первого уровня, которые не являются коллекциями.
Таблица hotelReviewssKeyPhrases содержит длинный список только ключевых фраз, извлеченных из всех отзывов. Навыки, которые выводят коллекции (массивы), такие как ключевые фразы и сущности, отправляют выходные данные в автономную таблицу.
Таблица hotelReviewssPages содержит обогащенные поля, созданные для каждой страницы, которая была отделена от документа. В этом наборе навыков и источнике данных добавляются обогащения на уровне страницы, состоящие из меток тональности и переведенного текста. При выборе степени детализации "страниц" в определении набора навыков создается таблица страниц (или таблица предложений, если указать определенный уровень детализации).
Все эти таблицы содержат столбцы идентификаторов для поддержки связей между таблицами в других средствах и приложениях. При открытии таблицы прокрутите эти поля, чтобы просмотреть поля содержимого, добавленные конвейером.
В этом кратком руководстве таблица для "hotelReviewssPages" должна выглядеть примерно так, как показано на следующем снимке экрана:
Очистка
Если вы работаете в собственной подписке, в конце проекта следует решить, нужны ли вам созданные ресурсы. Ресурсы, которые продолжат работать, могут быть платными. Вы можете удалить ресурсы по отдельности либо удалить всю группу ресурсов.
Просматривать ресурсы и управлять ими можно на портале с помощью ссылок Все ресурсы или Группы ресурсов на панели навигации слева.
Если вы используете бесплатную службу, помните, что вы ограничены тремя индексами, индексаторами и источниками данных. Вы можете удалить отдельные элементы на портале, чтобы не превысить лимит.
Совет
Если вы хотите повторить это упражнение или выполнить инструкции из другого пошагового руководства по обогащению с помощью ИИ, удалите только индексатор hotel-reviews-idxr и связанные с ним объекты, чтобы создать их повторно. При удалении индексатора счетчик бесплатных ежедневных транзакций будет обнулен.
Следующие шаги
Теперь, когда вы ознакомились с хранилищем знаний, изучите каждый шаг подробнее с помощью пошагового руководства, основанного на использовании REST API. В нем объясняются задачи, которые мастер обрабатывал внутренне.