Создание проекта с пользовательским распознаванием именованных сущностей

Из этой статьи вы можете узнать, как настроить требования для использования пользовательского распознавания именованных сущностей и создать проект.

Необходимые компоненты

Прежде чем вы сможете приступить к использованию пользовательского распознавания именованных сущностей, вам потребуется следующее:

Создание ресурса Языковой службы

Прежде чем приступить к использованию пользовательского NER, вам потребуется ресурс языка искусственного интеллекта Azure. Рекомендуем создать языковой ресурс и подключить к нему учетную запись хранения на портале Azure. Создание ресурса на портале Azure позволяет одновременно создать учетную запись хранения Azure, где будут предварительно настроены все необходимые разрешения. Дополнительные сведения о том, как использовать существующий ресурс и настроить его для работы с пользовательским распознаванием именованных сущностей, см. в этой статье.

Вам также потребуется учетная запись хранения Azure. В нее будут отправляться документы .txt, которые будут использоваться для обучения модели умению извлекать сущности.

Примечание.

  • Чтобы создать ресурс Языка, требуется роль владельца, назначенная группе ресурсов.
  • Если вы подключите ранее существующую учетную запись хранения, ей должна быть назначена роль владельца.

Создание языкового ресурса и подключение учетной записи хранения

Ресурс можно создать следующими способами:

  • Портал Azure
  • Language Studio
  • PowerShell

Примечание.

Не следует перемещать учетную запись хранения в другую группу ресурсов или подписку после того, как учетная запись хранения была связана с языковым ресурсом.

Создание ресурса на портале Azure

  1. Войдите в портал Azure, чтобы создать новый ресурс языка искусственного интеллекта Azure.

  2. В появившемся окне выберите настраиваемую классификацию текста и распознавание именованных сущностей из пользовательских функций. Нажмите кнопку "Продолжить", чтобы создать ресурс в нижней части экрана.

    Снимок экрана: настраиваемая классификация текста и распознавание именованных сущностей в портал Azure.

  3. Создайте ресурс службы "Язык" с приведенными ниже сведениями.

    Имя Описание
    Подписка Вашу подписку Azure.
    Группа ресурсов Группа ресурсов, которая будет содержать ваш ресурс. Можно использовать существующую группу или создать новую.
    Область/регион Регион для ресурса службы "Язык". Например, "Западная часть США 2".
    Имя. Имя ресурса.
    Ценовая категория Ценовая категория ресурса Языка. Вы можете использовать уровень "Бесплатный" (F0), чтобы поработать со службой.

    Примечание.

    Если появится сообщение Ваша учетная запись входа не является владельцем выбранной группы ресурсов учетной записи хранения, значит, ваша учетная запись должна иметь роль владельца, назначенную группе ресурсов, — только тогда вы сможете создать ресурс службы "Язык". Обратитесь за помощью к владельцу подписки Azure.

  4. В разделе "Настраиваемая классификация текста" и "Распознавание именованных сущностей" выберите существующую учетную запись хранения или выберите новую учетную запись хранения. Эти значения для учетной записи хранения помогут вам быстро начать работу, но они не всегда подходят для реальных рабочих сред. Чтобы избежать задержек при создании проекта, подключитесь к учетным записям хранения в том же регионе, что и ресурс Языка.

    Значение для учетной записи хранения Рекомендуемое значение
    Storage account name Любое имя
    Storage account type Standard LRS
  5. Убедитесь, что флажок Уведомление об ответственном применении ИИ установлен. В нижней части страницы щелкните Просмотр и создание, а затем нажмите Создать.

Создание ресурса Языка из Студии Языка

При первом входе вы увидите окно Студия Языка, с помощью которого можно выбрать или создать ресурс Языка. Чтобы создать ресурс, можно также щелкнуть значок параметров в правом верхнем углу и выбрать Ресурсы, а затем — Создать новый ресурс.

Создайте ресурс службы "Язык" с приведенными ниже сведениями.

Сведения об экземпляре Обязательное значение
Подписка Azure. Ваша подписка Azure
Группа ресурсов Azure Группа ресурсов Azure
Имя ресурса Azure Имя ресурса Azure
Расположение Регион, в котором расположен ресурс службы "Язык".
Ценовая категория Ценовая категория ресурса службы "Язык".

Внимание

  • Обязательно включите управляемое удостоверение при создании ресурса языка.
  • Чтение и подтверждение уведомления об ответственном ИИ

Чтобы использовать пользовательское распознавание именованных сущностей, необходимо создать учетную запись хранения Azure, если у вас ее еще нет.

Создание нового ресурса службы "Язык" с помощью PowerShell

Вы можете создать новый ресурс и учетную запись хранения, используя следующие файлы шаблонов и параметров CLI, которые размещаются на GitHub.

Измените следующие значения в файле параметров:

Наименование параметра Описание значения
name Имя вашего языкового ресурса
location Регион, в котором размещается ресурс. Дополнительные сведения см. в статье Ограничения службы.
sku Ценовая категория ресурса.
storageResourceName Имя учетной записи хранения
storageLocation Регион, в котором размещена учетная запись хранения.
storageSkuType SKU учетной записи хранения.
storageResourceGroupName Группа ресурсов учетной записи хранения

Используйте следующую команду PowerShell, чтобы развернуть шаблон Azure Resource Manager (ARM) с измененными файлами.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Сведения о развертывании шаблонов и файлах параметров см. в документации по шаблонам ARM.

Примечание.

  • Процесс подключения учетной записи хранения к ресурсу Языка является необратимым — ее нельзя будет отключить позже.
  • Вы можете подключить ресурс Языка только к одной учетной записи хранения.

Использование уже существующего ресурса службы "Язык"

Вы можете использовать существующий языковой ресурс, чтобы приступить к работе с настраиваемыми NER, если этот ресурс соответствует следующим требованиям:

Требование Description
Регионы Убедитесь, что существующий ресурс подготовлен в одном из поддерживаемых регионов. В противном случае необходимо будет создать новый ресурс в одном из них.
Ценовая категория См. дополнительные сведения о поддерживаемых ценовых категориях.
Управляемое удостоверение Убедитесь, что параметр удостоверения, управляемого ресурсом, включен. В противном случае изучите следующий раздел.

Чтобы использовать пользовательское распознавание именованных сущностей, необходимо создать учетную запись хранения Azure, если у вас ее еще нет.

Включение управления удостоверениями для ресурса

Ресурс языка должен иметь управление удостоверениями, чтобы включить его с помощью портал Azure:

  1. Перейдите к ресурсу Языка.
  2. В меню слева в разделе Управление ресурсами выберите Удостоверение.
  3. На вкладке Назначаемое системой убедитесь, что для параметра Состояние установлено значение Включено.

Включение пользовательского распознавания именованных сущностей

Обязательно включите функцию Пользовательская классификация текстов и пользовательское распознавание именованных сущностей на портале Azure.

  1. Перейдите к своему ресурсу "Язык" на портале Azure.
  2. В меню слева в разделе "Управление ресурсами" выберите "Компоненты".
  3. Включение пользовательской классификации текста / функция распознавания именованных сущностей.
  4. Подключение учетной записи хранения.
  5. Выберите Применить.

Внимание

  • Убедитесь, что ресурс Языка имеет роль участника данных BLOB-объектов хранилища, назначенную подключаемой учетной записи хранения.

Добавление требуемых ролей

Выполните следующие действия, чтобы задать необходимые роли для ресурса Языка и учетной записи хранения.

Анимированное изображение: задание ролей на портале Azure.

Роли для ресурса языка ИИ Azure

  1. Перейдите к своей учетной записи хранения или ресурсу Языка на портале Azure.

  2. В расположенном слева меню навигации щелкните Управление доступом (IAM).

  3. Щелкните Добавить, чтобы добавить назначения ролей, и выберите соответствующую роль для учетной записи.

    В ресурсе Языка вам должна быть назначена роль владельца или участника.

  4. В поле Назначить доступ к выберите Пользователь, группа или субъект-служба.

  5. Щелкните Выбрать члены.

  6. Выберите свое имя пользователя. В поле Выбор можно найти имена пользователей. Повторите это действие для всех ролей.

  7. Повторите эти действия для всех учетных записей пользователей, которым требуется доступ к этому ресурсу.

Роли для учетной записи хранения

  1. Войдите на страницу своей учетной записи хранения на портале Azure.
  2. В расположенном слева меню навигации щелкните Управление доступом (IAM).
  3. Щелкните Добавить, чтобы добавить назначения ролей и выберите роль Участник для данных BLOB-объектов хранилища для учетной записи хранения.
  4. В поле Назначить доступ к выберите Управляемое удостоверение.
  5. Щелкните Выбрать члены.
  6. Укажите свою подписку и выберите Язык в качестве управляемого удостоверения. В поле Выбор можно найти имена пользователей.

Внимание

Если у вас есть виртуальная сеть или частная конечная точка, обязательно выберите разрешить службам Azure в списке доверенных служб доступ к этой учетной записи хранения в портал Azure.

Включение CORS для учетной записи хранения

Обязательно разрешите методы (GET, PUT, DELETE) при включении общего доступа к ресурсам из разных источников (CORS). Задайте для поля разрешенных источников значение https://language.cognitive.azure.com. Разрешите все заголовки, добавив * в допустимые значения заголовков, и задайте максимальный возраст 500.

Снимок экрана: использование CORS для учетных записей хранения.

Создание проекта настраиваемого компонента Распознавания именованных сущностей

После настройки контейнера ресурсов и хранилища создайте новый пользовательский проект NER. Проект — это рабочая область для создания настраиваемых моделей ИИ на основе данных. Получить доступ к вашему проекту можете только вы, а также другие пользователи, у которых есть доступ к используемому ресурсу Azure. Если у вас есть помеченные данные, вы можете использовать их, импортировав проект.

  1. Войдите в Студию Языка. Появится окно, где можно выбрать свою подписку и ресурс служб "Язык". Выберите ресурс службы "Язык", созданный на предыдущем шаге.

  2. В Language Studio в разделе Извлечение информации выберите Пользовательское распознавание именованных сущностей.

    Снимок экрана, на котором показано расположение настраиваемого компонента

  3. Щелкните Create new project (Создать новый проект) в меню в верхней части страницы проектов. Создав проект, вы сможете отмечать данные тегами, а также обучать, оценивать, улучшать и развертывать модели.

    Снимок экрана: страница создания проекта.

  4. После нажатия кнопки Создать новый проект появится окно, где можно подключить учетную запись хранения. Если вы уже подключили учетную запись хранения, отобразится подключенная учетная запись хранения. Если нет, выберите учетную запись хранения в раскрывающемся списке и выберите Подключение учетную запись хранения. Это позволит задать необходимые роли для учетной записи хранения. На этом шаге может появиться ошибка, если вы не назначены в качестве владельца учетной записи хранения.

    Примечание.

    • Этот шаг нужно выполнить только один раз для каждого нового используемого ресурса.
    • Этот процесс необратим. Если учетная запись хранения будет подключена к ресурсу службы "Язык", ее нельзя будет отключить позже.
    • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

    Снимок экрана: экран подключения к хранилищу.

  5. Введите сведения о проекте, включая имя, описание и язык файлов в проекте. Если вы используете пример набора данных, выберите английский язык. Вы не сможете изменить имя проекта на более поздних этапах. Выберите Далее

    Совет

    Набор данных не обязательно должен быть полностью на одном языке. У вас может быть несколько документов с разными поддерживаемыми языками. Если набор данных содержит документы с разными языками или если во время выполнения предполагается использовать тексты на разных языках, выберите параметр Включить многоязычный набор данных при вводе основных сведений о проекте. Этот параметр можно включить позже на странице Параметры проекта.

  6. Выберите контейнер, в который отправили набор данных. Если вы уже помечены данные, убедитесь, что он соответствует поддерживаемму формату и выберите "Да", мои файлы уже помечены, и я отформатировал файл меток JSON и выберите файл меток в раскрывающемся меню. Выберите Далее.

  7. Проверьте введенные данные и щелкните Create Project (Создать проект).

Импорт проекта

Если данные уже помечены, их можно использовать для начала работы со службой. Убедитесь, что помеченные данные соответствуют допустимым форматам данных.

  1. Войдите в Студию Языка. Появится окно, где можно выбрать свою подписку и ресурс служб "Язык". Выберите свой языковой ресурс.

  2. В Language Studio в разделе Извлечение информации выберите Пользовательское распознавание именованных сущностей.

    Снимок экрана, на котором показано расположение настраиваемого компонента

  3. Щелкните Create new project (Создать новый проект) в меню в верхней части страницы проектов. Создав проект, вы сможете отмечать данные тегами, а также обучать, оценивать, улучшать и развертывать модели.

    Снимок экрана: страница создания проекта.

  4. Когда вы выберете Создать проект, появится экран, где вы сможете подключить учетную запись хранения. Если вы не можете найти свою учетную запись хранения, убедитесь, что вы создали ресурс, выполнив рекомендуемые действия. Если вы уже подключили учетную запись хранения к ресурсу Языка, вы увидите, что она подключена.

    Примечание.

    • Этот шаг нужно выполнить только один раз для каждого нового используемого ресурса Языка.
    • Этот процесс необратим. Если учетная запись хранения будет подключена к ресурсу службы "Язык", ее нельзя будет отключить позже.
    • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

    Снимок экрана подключения хранилища для новых проектов.

  5. Введите сведения о проекте, включая имя, описание и язык файлов в проекте. Вы не сможете изменить имя проекта на более поздних этапах. Выберите Далее.

    Совет

    Набор данных не обязательно должен быть полностью на одном языке. У вас может быть несколько документов с разными поддерживаемыми языками. Если набор данных содержит документы с разными языками или если во время выполнения предполагается использовать тексты на разных языках, выберите параметр Включить многоязычный набор данных при вводе основных сведений о проекте. Этот параметр можно включить позже на странице Параметры проекта.

  6. Выберите контейнер, в который отправили набор данных.

  7. Выберите "Да", мои файлы уже помечены, и я отформатировал файл меток JSON и выберите файл меток в раскрывающемся меню ниже, чтобы импортировать файл меток JSON. Убедитесь, что он соответствует поддерживаемому формату.

  8. Выберите Далее.

  9. Проверьте введенные данные и щелкните Create Project (Создать проект).

Получение сведений о проекте

  1. Перейдите к странице настроек проекта в Language Studio.

  2. Вы можете просмотреть сведения о проекте.

  3. На этой странице можно изменить описание проекта и включить или отключить многоязычный набор данных.

  4. Вы также можете просмотреть подключенную учетную запись хранения и контейнер для ресурса службы "Язык".

  5. Кроме того, на ней можно получить ключ основного ресурса на этой странице.

    Снимок экрана: страница параметров проектов в Language Studio.

Удаление проекта

Если проект вам больше не нужен, вы можете удалить его с помощью Студии Языка. Выберите "Пользовательское распознавание именованных сущностей" (NER) вверху, выберите проект, который нужно удалить, а затем выберите "Удалить " в верхнем меню.

Следующие шаги

  • Вы должны иметь представление о схеме проекта, которая будет использоваться для добавления меток к данным.

  • После создания проекта можно добавить метки к данным. Они определяют, каким образом модель извлечения сущностей должна интерпретировать текст, и используются для обучения и оценки.