Создание проекта с пользовательским распознаванием именованных сущностей

Из этой статьи вы можете узнать, как настроить требования для использования пользовательского распознавания именованных сущностей и создать проект.

Предварительные требования

Прежде чем вы сможете приступить к использованию пользовательского распознавания именованных сущностей, вам потребуется следующее:

Создание ресурса Языковой службы

Прежде чем приступить к использованию настраиваемого NER, вам потребуется ресурс языка Azure. Рекомендуем создать языковой ресурс и подключить к нему учетную запись хранения на портале Azure. Создание ресурса на портале Azure позволяет одновременно создавать учетную запись хранения Azure с предварительно настроенными всеми необходимыми разрешениями. Дополнительные сведения о том, как использовать существующий ресурс и настроить его для работы с пользовательским распознаванием именованных сущностей, см. в этой статье.

Вам также потребуется учетная запись хранения Azure. В нее будут отправляться документы .txt, которые будут использоваться для обучения модели умению извлекать сущности.

Примечание

  • Чтобы создать языковой ресурс, необходима роль владельца для группы ресурсов.
  • Если вы подключите ранее существующую учетную запись хранения, ей должна быть назначена роль владельца.

Создание языкового ресурса и подключение учетной записи хранения

Ресурс можно создать следующими способами:

  • Портал Azure
  • Language Studio
  • PowerShell

Примечание

Не следует перемещать учетную запись хранения в другую группу ресурсов или подписку после того, как учетная запись хранения была связана с языковым ресурсом.

Создание нового ресурса на портале Azure

  1. Перейдите на портал Azure и создайте новый ресурс службы "Язык" в Azure.

  2. В появившемся окне выберите из пользовательских функций Пользовательская классификация текстов и пользовательское распознавание именованных сущностей. Нажмите Продолжить создание ресурса в нижней части экрана.

    Снимок экрана: пользовательская классификация текстов и пользовательское распознавание именованных сущностей на портале Azure.

  3. Создайте ресурс Языка со следующими сведениями.

    Название Описание
    Подписка Вашу подписку Azure.
    Группа ресурсов Группа ресурсов, которая будет содержать ваш ресурс. Можно использовать существующую группу или создать новую.
    Region Регион для ресурса службы "Язык". Например, "Западная часть США 2".
    Название Имя ресурса.
    Ценовая категория Ценовая категория ресурса службы "Язык". Вы можете использовать уровень "Бесплатный" (F0), чтобы поработать со службой.

    Примечание

    Если появится сообщение Ваша учетная запись входа не является владельцем выбранной группы ресурсов учетной записи хранения, значит, ваша учетная запись должна иметь роль владельца, назначенную группе ресурсов, — только тогда вы сможете создать ресурс службы "Язык". Обратитесь за помощью к владельцу подписки Azure.

  4. В разделе Пользовательская классификация текстов и пользовательское распознавание именованных сущностей выберите существующую учетную запись хранения или щелкните Создать учетную запись хранения. Эти значения для учетной записи хранения помогут вам быстро начать работу, но они не всегда подходят для реальных рабочих сред. Чтобы избежать задержек при создании проекта, подключитесь к учетным записям хранения в том же регионе, что и ресурс службы "Язык".

    Значение для учетной записи хранения Рекомендуемое значение
    Имя учетной записи хранения Любое имя
    Тип учетной записи хранения Standard LRS
  5. Убедитесь, что флажок Уведомление об ответственном применении ИИ установлен. В нижней части страницы щелкните Просмотр и создание, а затем нажмите Создать.

Создание ресурса из Language Studio

При первом входе вы увидите окно Language Studio, с помощью которого можно выбрать или создать языковой ресурс. Можно также создать ресурс, щелкнув значок "Параметры" в правом верхнем углу, выбрав Ресурсы, а затем выбрав Создать новый ресурс.

Создайте ресурс службы "Язык" с приведенными ниже сведениями.

Сведения об экземпляре Обязательное значение
Подписка Azure. Ваша подписка Azure
Группа ресурсов Azure Ваша группа ресурсов Azure
Имя ресурса Azure Имя ресурса Azure
Расположение Регион, в котором расположен ресурс службы "Язык".
Ценовая категория Ценовая категория ресурса службы "Язык".

Важно!

  • При создании ресурса службы "Язык" обязательно включите Управляемое удостоверение.
  • Чтение и подтверждение уведомления об ответственном подходе к использованию ИИ

Чтобы использовать пользовательское распознавание именованных сущностей, необходимо создать учетную запись хранения Azure, если у вас ее еще нет.

Создание нового ресурса службы "Язык" с помощью PowerShell

Вы можете создать новый ресурс и учетную запись хранения, используя следующие файлы шаблонов и параметров CLI, которые размещаются на GitHub.

Измените следующие значения в файле параметров:

Имя параметра Описание значения
name Имя вашего языкового ресурса
location Регион, в котором размещается ресурс. Дополнительные сведения см. в статье Ограничения службы.
sku Ценовая категория ресурса.
storageResourceName Имя учетной записи хранения
storageLocation Регион, в котором размещена учетная запись хранения.
storageSkuType SKU учетной записи хранения.
storageResourceGroupName Группа ресурсов учетной записи хранения

Используйте следующую команду PowerShell, чтобы развернуть шаблон Azure Resource Manager (ARM) с измененными файлами.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Сведения о развертывании шаблонов и файлов параметров см. в документации по шаблонам ARM.

Примечание

  • Процесс подключения учетной записи хранения к ресурсу службы "Язык" необратим — ее нельзя будет отключить позже.
  • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

Использование уже существующего ресурса службы "Язык"

Вы можете использовать существующий языковой ресурс, чтобы приступить к работе с настраиваемыми NER, если этот ресурс соответствует следующим требованиям:

Требование Описание
Регионы Убедитесь, что существующий ресурс подготовлен в одном из поддерживаемых регионов. В противном случае необходимо будет создать новый ресурс в одном из них.
Ценовая категория Подробнее о поддерживаемых ценовых категориях.
Управляемое удостоверение Убедитесь, что параметр удостоверения, управляемого ресурсом, включен. В противном случае читайте следующий раздел.

Чтобы использовать пользовательское распознавание именованных сущностей, необходимо создать учетную запись хранения Azure, если у вас ее еще нет.

Включение управления удостоверениями для ресурса

Для ресурса службы "Язык" должно использоваться управление удостоверениями, чтобы этот ресурс можно было включить с помощью портала Azure:

  1. Выберите ресурс службы "Язык".
  2. В меню слева в разделе Управление ресурсами выберите Удостоверение.
  3. На вкладке Назначаемое системой убедитесь, что для параметра Состояние установлено значение Включено.

Включение пользовательского распознавания именованных сущностей

Обязательно включите пользовательскую классификацию текстов / пользовательское распознавание именованных сущностей на портале Azure.

  1. Перейдите к ресурсу службы "Язык" на портале Azure.
  2. В меню слева в разделе Управление ресурсами выберите Компоненты.
  3. Включите Пользовательскую классификацию текстов / пользовательское распознавание именованных сущностей.
  4. Подключение к учетной записи хранения
  5. Щелкните Применить.

Важно!

  • Убедитесь, что ресурс языка имеет роль участника данных BLOB-объектов хранилища, назначенную для подключаемой учетной записи хранения.

Добавление требуемых ролей

Выполните следующие действия, чтобы задать необходимые роли для ресурса службы "Язык" и учетной записи хранения.

Анимированное изображение: задание ролей на портале Azure.

Роли для языкового ресурса Azure

  1. Перейдите к своей учетной записи хранения или ресурсу службы "Язык" на портале Azure.

  2. В расположенном слева меню навигации щелкните Управление доступом (IAM).

  3. Выберите Добавить, чтобы Добавить назначения ролей, и выберите соответствующую роль для учетной записи.

    В ресурсе службы "Язык" вам должна быть назначена роль владельца или участника.

  4. В поле Назначение доступа к выберите Пользователь, группа или субъект-служба.

  5. Щелкните Выбрать членов.

  6. Выберите свое имя пользователя. В поле Выбор можно найти имена пользователей. Повторите это действие для всех ролей.

  7. Повторите эти действия для всех учетных записей пользователей, которым требуется доступ к этому ресурсу.

Роли для учетной записи хранения

  1. Войдите на страницу своей учетной записи хранения на портале Azure.
  2. В расположенном слева меню навигации щелкните Управление доступом (IAM).
  3. Выберите Добавить рядом с элементом Добавление назначений ролей и выберите роль Участник для данных BLOB-объектов хранилища для учетной записи хранения.
  4. В поле Назначение доступа для в разделе Управляемое удостоверение.
  5. Щелкните Выбрать членов.
  6. Выберите свою подписку и Язык в качестве управляемого удостоверения. В поле Выбор можно найти имена пользователей.

! [ВАЖНО] Если у вас есть виртуальная сеть или частная конечная точка, обязательно выберите "Разрешить службам Azure" в списке доверенных служб доступ к этой учетной записи хранения в портал Azure.

Включите CORS для учетной записи хранения

Обязательно разрешите методы (GET, PUT, DELETE) при включении общего доступа к ресурсам из разных источников (CORS). Задайте для поля разрешенных источников значение https://language.cognitive.azure.com. Разрешите все заголовки, добавив * в допустимые значения заголовков, и задайте максимальный возраст 500.

Снимок экрана: использование CORS для учетных записей хранения.

Создание проекта настраиваемого компонента Распознавания именованных сущностей

После настройки контейнера ресурсов и хранилища создайте новый пользовательский проект NER. Проект — это рабочая область для создания настраиваемых моделей ИИ на основе данных. Получить доступ к вашему проекту можете только вы, а также другие пользователи, у которых есть доступ к используемому ресурсу Azure. Если у вас есть помеченные данные, вы можете использовать их, импортировав проект.

  1. Войдите в Language Studio. Появится окно, где можно выбрать свою подписку и ресурс служб "Язык". Выберите ресурс службы "Язык", созданный на предыдущем шаге.

  2. В Language Studio в разделе Извлечение информации выберите Пользовательское распознавание именованных сущностей.

    Снимок экрана, на котором показано расположение настраиваемого компонента

  3. Щелкните Create new project (Создать новый проект) в меню в верхней части страницы проектов. Создав проект, вы сможете отмечать данные тегами, а также обучать, оценивать, улучшать и развертывать модели.

    Снимок экрана: страница создания проекта.

  4. После нажатия кнопки Создать новый проект появится окно, где можно подключить учетную запись хранения. Если вы уже подключили учетную запись хранения, отобразится подключенная учетная запись хранения. В противном случае выберите свою учетную запись хранения в появившемся раскрывающемся списке и щелкните Подключить учетную запись хранения. При этом будут заданы необходимые роли для учетной записи хранения. На этом шаге может появиться ошибка, если вы не назначены в качестве владельца учетной записи хранения.

    Примечание

    • Этот шаг нужно выполнить только один раз для каждого нового используемого ресурса.
    • Этот процесс необратим. Если учетная запись хранения будет подключена к ресурсу службы "Язык", ее нельзя будет отключить позже.
    • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

    Снимок экрана: экран подключения к хранилищу.

  5. Введите сведения о проекте, включая имя, описание и язык файлов в проекте. Если вы используете пример набора данных, выберите английский язык. Вы не сможете изменить имя проекта позже. Нажмите кнопку Далее

    Совет

    Набор данных не обязательно должен быть полностью на одном языке. У вас может быть несколько документов с разными поддерживаемыми языками. Если набор данных содержит документы с разными языками или если во время выполнения предполагается использовать тексты на разных языках, выберите параметр включить многоязычный набор данных при вводе основных сведений о проекте. Этот параметр можно включить позже на странице Параметры проекта.

  6. Выберите контейнер, в который отправили набор данных. Если вы уже пометили данные, убедитесь, что они имеют поддерживаемый формат, нажмите Да, мои файлы уже имеют метки, и я отформатировал файл меток JSON и выберите файл меток в раскрывающемся меню. Щелкните Далее.

  7. Проверьте введенные данные и щелкните Create Project (Создать проект).

Импорт проекта

Если данные уже помечены, их можно использовать для начала работы со службой. Убедитесь, что помеченные данные соответствуют принимаемым форматам данных.

  1. Войдите в Language Studio. Появится окно, где можно выбрать свою подписку и ресурс служб "Язык". Выберите свой языковой ресурс.

  2. В Language Studio в разделе Извлечение информации выберите Пользовательское распознавание именованных сущностей.

    Снимок экрана, на котором показано расположение настраиваемого компонента

  3. Щелкните Create new project (Создать новый проект) в меню в верхней части страницы проектов. Создав проект, вы сможете отмечать данные тегами, а также обучать, оценивать, улучшать и развертывать модели.

    Снимок экрана: страница создания проекта.

  4. Когда вы выберете Создать новый проект, появится экран, где вы можете подключить учетную запись хранения. Если вы не можете найти свою учетную запись хранения, убедитесь, что вы создали ресурс, выполнив рекомендуемые действия. Если вы уже подключили учетную запись хранения к языковому ресурсу, вы увидите, что она подключена.

    Примечание

    • Этот шаг нужно выполнить только один раз для каждого нового используемого ресурса службы "Язык".
    • Этот процесс необратим. Если учетная запись хранения будет подключена к ресурсу службы "Язык", ее нельзя будет отключить позже.
    • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

    Снимок экрана подключения хранилища для новых проектов.

  5. Введите сведения о проекте, включая имя, описание и язык файлов в проекте. Вы не сможете изменить имя проекта позже. Щелкните Далее.

    Совет

    Набор данных не обязательно должен быть полностью на одном языке. У вас может быть несколько документов с разными поддерживаемыми языками. Если набор данных содержит документы с разными языками или если во время выполнения предполагается использовать тексты на разных языках, выберите параметр включить многоязычный набор данных при вводе основных сведений о проекте. Этот параметр можно включить позже на странице Параметры проекта.

  6. Выберите контейнер, в который отправили набор данных.

  7. Нажмите кнопку Да, мои файлы уже помечены, и файл меток JSON отформатирован и выберите файл меток в раскрывающемся меню ниже, чтобы импортировать файл меток JSON. Убедитесь, что он соответствует поддерживаемому формату.

  8. Щелкните Далее.

  9. Проверьте введенные данные и щелкните Create Project (Создать проект).

Получение сведений о проекте

  1. Перейдите к странице настроек проекта в Language Studio.

  2. На ней отображаются сведения о проекте.

  3. На этой странице можно изменить описание проекта и включить или отключить многоязычный набор данных.

  4. Вы также можете просмотреть подключенную учетную запись хранения и контейнер для ресурса службы "Язык".

  5. Кроме того, на ней можно получить ключ основного ресурса на этой странице.

    Снимок экрана: страница параметров проектов в Language Studio.

Удаление проекта

Если проект вам больше не нужен, вы можете удалить его с помощью Студии Языка. Сверху выберите Пользовательское распознавание именованных сущностей (NER), выберите проект, который нужно удалить, и щелкните Удалить.

Дальнейшие действия

  • Вы должны иметь представление о схеме проекта, которая будет использоваться для добавления меток к данным.

  • После создания проекта можно добавить метки к данным. Они определяют, каким образом модель извлечения сущностей должна интерпретировать текст, и используются для обучения и оценки.