Создание проектов пользовательской классификации текстов

Узнайте, как настроить требования для работы с пользовательским распознаванием именованных сущностей и создать проект.

Необходимые компоненты

Прежде чем приступить к работе с пользовательской классификацией текстов, необходимо подготовить следующее:

Создание ресурса Языковой службы

Прежде чем приступить к использованию пользовательской классификации текста, вам потребуется ресурс языка искусственного интеллекта Azure. Рекомендуем создать языковой ресурс и подключить к нему учетную запись хранения на портале Azure. Создание ресурса на портале Azure позволяет одновременно создать учетную запись хранения Azure, где будут предварительно настроены все необходимые разрешения. Кроме того, далее в статье будет описано, как использовать существующий ресурс и настроить его для работы с пользовательской классификацией текстов.

Вам также потребуется учетная запись хранения Azure. В нее будут отправляться документы .txt, которые будут использоваться для обучения модели умению классифицировать тексты.

Примечание.

  • Чтобы создать ресурс Языка, требуется роль владельца, назначенная группе ресурсов.
  • Если вы подключите ранее существующую учетную запись хранения, ей должна быть назначена роль владельца.

Создание языкового ресурса и подключение учетной записи хранения

Примечание.

Не следует перемещать учетную запись хранения в другую группу ресурсов или подписку после того, как учетная запись хранения была связана с языковым ресурсом.

Создание ресурса на портале Azure

  1. Перейдите к портал Azure, чтобы создать новый ресурс языка искусственного интеллекта Azure.

  2. В появившемся окне выберите настраиваемую классификацию текста и распознавание именованных сущностей из пользовательских функций. Нажмите кнопку "Продолжить", чтобы создать ресурс в нижней части экрана.

    A screenshot showing the selection option for custom text classification and custom named entity recognition in Azure portal.

  3. Создайте ресурс службы "Язык" с приведенными ниже сведениями.

    Имя. Обязательное значение
    Отток подписок Вашу подписку Azure.
    Группа ресурсов Группа ресурсов, которая будет содержать ваш ресурс. Можно использовать существующую группу или создать новую.
    Регион Один из поддерживаемых регионов. Например, "Запад США 2".
    Имя. Имя ресурса.
    Ценовая категория Одна из поддерживаемых ценовых категорий. Вы можете использовать уровень "Бесплатный" (F0), чтобы поработать со службой.

    Если появится сообщение Ваша учетная запись входа не является владельцем выбранной группы ресурсов учетной записи хранения, значит, ваша учетная запись должна иметь роль владельца, назначенную группе ресурсов, — только тогда вы сможете создать ресурс службы "Язык". Обратитесь за помощью к владельцу подписки Azure.

    Вы можете определить владельца подписки Azure, выполнив поиск в группе ресурсов и следуя ссылке на связанную подписку. Затем:

    1. Выберите вкладку контроль доступа (IAM)
    2. Выбор назначений ролей
    3. Фильтрация по роли:владелец.
  4. В разделе "Настраиваемая классификация текста" и "Распознавание именованных сущностей" выберите существующую учетную запись хранения или выберите новую учетную запись хранения. Обратите внимание, что значения для учетной записи хранения предназначены для того, чтобы помочь вам начать работу, и не обязательно должны использоваться в рабочих средах. Чтобы избежать задержек при создании проекта, подключитесь к учетным записям хранения в том же регионе, что и ресурс Языка.

    Значение для учетной записи хранения Рекомендуемое значение
    Storage account name Любое имя
    Storage account type Standard LRS
  5. Убедитесь, что флажок Уведомление об ответственном применении ИИ установлен. В нижней части страницы выберите Review + create (Проверить и создать).

Примечание.

  • Процесс подключения учетной записи хранения к ресурсу Языка является необратимым — ее нельзя будет отключить позже.
  • Вы можете подключить ресурс Языка только к одной учетной записи хранения.

Использование уже существующего ресурса службы "Язык"

Требование Description
Регионы Убедитесь, что существующий ресурс подготовлен в одном из поддерживаемых регионов. Если у вас нет ресурса, необходимо создать новый ресурс в поддерживаемом регионе.
Ценовая категория Ценовая категория ресурса.
Управляемое удостоверение Убедитесь, что параметр удостоверения, управляемого ресурсом, включен. В противном случае изучите следующий раздел.

Чтобы использовать пользовательскую классификацию текстов, необходимо создать учетную запись хранения Azure, если у вас ее еще нет.

Включение управления удостоверениями для ресурса

Для ресурса Языка должно использоваться управление удостоверениями, чтобы этот ресурс можно было включить с помощью портала Azure:

  1. Перейдите к ресурсу Языка.
  2. В меню слева в разделе Управление ресурсами выберите Удостоверение.
  3. На вкладке Назначаемое системой убедитесь, что для параметра Состояние установлено значение Включено.

Включение функции пользовательской классификации текста

Обязательно включите функцию Пользовательская классификация текстов и пользовательское распознавание именованных сущностей на портале Azure.

  1. Перейдите к ресурсу Языка на портале Azure.
  2. В меню слева в разделе Управление ресурсами выберите Компоненты.
  3. Включите функцию Пользовательская классификация текстов и пользовательское распознавание именованных сущностей.
  4. Подключение к учетной записи хранения
  5. Нажмите кнопку Применить.

Важно!

  • Убедитесь, что ресурс Языка имеет роль участника данных BLOB-объектов хранилища, назначенную подключаемой учетной записи хранения.

Настройка ролей для ресурса языка ИИ Azure и учетной записи хранения

Выполните следующие действия, чтобы задать необходимые роли для ресурса Языка и учетной записи хранения.

An animated image showing how to set roles in the Azure portal.

Роли для ресурса языка ИИ Azure

  1. Перейдите к своей учетной записи хранения или ресурсу Языка на портале Azure.

  2. В расположенном слева меню навигации щелкните Управление доступом (IAM).

  3. Щелкните Добавить, чтобы добавить назначения ролей, и выберите соответствующую роль для учетной записи.

    В ресурсе Языка вам должна быть назначена роль владельца или участника.

  4. В поле Назначить доступ к выберите Пользователь, группа или субъект-служба.

  5. Щелкните Выбрать члены.

  6. Выберите свое имя пользователя. В поле Выбор можно найти имена пользователей. Повторите это действие для всех ролей.

  7. Повторите эти действия для всех учетных записей пользователей, которым требуется доступ к этому ресурсу.

Роли для учетной записи хранения

  1. Войдите на страницу своей учетной записи хранения на портале Azure.
  2. В расположенном слева меню навигации щелкните Управление доступом (IAM).
  3. Щелкните Добавить, чтобы добавить назначения ролей и выберите роль Участник для данных BLOB-объектов хранилища для учетной записи хранения.
  4. В поле Назначить доступ к выберите Управляемое удостоверение.
  5. Щелкните Выбрать члены.
  6. Укажите свою подписку и выберите Язык в качестве управляемого удостоверения. В поле Выбор можно найти имена пользователей.

Важно!

Если у вас есть виртуальная сеть или частная конечная точка, обязательно выберите разрешить службам Azure в списке доверенных служб доступ к этой учетной записи хранения в портал Azure.

Включение CORS для учетной записи хранения

Обязательно разрешите методы (GET, PUT, DELETE) при включении общего доступа к ресурсам из разных источников (CORS). Задайте для поля разрешенных источников значение https://language.cognitive.azure.com. Разрешите все заголовки, добавив * в допустимые значения заголовков, и задайте максимальный возраст 500.

A screenshot showing how to use CORS for storage accounts.

Создание пользовательского проекта классификации текстов

После настройки контейнера ресурсов и хранилища создайте новый проект пользовательской классификации текстов. Проект — это рабочая область для создания настраиваемых моделей ИИ на основе данных. Получить доступ к вашему проекту можете только вы, а также другие пользователи, у которых есть доступ к используемому ресурсу Azure. Если у вас есть помеченные данные, вы можете импортировать их, чтобы приступить к работе.

  1. Войдите в Студию Языка. Появится окно, где можно выбрать свою подписку и ресурс служб "Язык". Выберите свой языковой ресурс.

  2. В разделе Классификация текста в Студии Языка выберите Пользовательская классификация текстов.

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. Щелкните Create new project (Создать новый проект) в меню в верхней части страницы проектов. Создав проект, вы сможете добавлять метки к данным, а также обучать, оценивать, улучшать и развертывать модели.

    A screenshot of the custom text classification project creation page.

  4. После нажатия кнопки Создать новый проект появится окно, где можно подключить учетную запись хранения. Если вы уже подключили учетную запись хранения, отобразится подключенная учетная запись хранения. Если нет, выберите учетную запись хранения в раскрывающемся списке и выберите Подключение учетную запись хранения. Это позволит задать необходимые роли для учетной записи хранения. На этом шаге может появиться ошибка, если вы не назначены в качестве владельца учетной записи хранения.

    Примечание.

    • Этот шаг нужно выполнить только один раз для каждого нового используемого ресурса Языка.
    • Этот процесс необратим. Если учетная запись хранения будет подключена к ресурсу службы "Язык", ее нельзя будет отключить позже.
    • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

    A screenshot of the storage connection screen for custom classification projects.

  5. Выберите тип проекта. Вы можете создать проект Классификация по нескольким меткам, в котором каждый документ может принадлежать одному или нескольким классам, или проект Классификация по одной метке, в котором каждый документ может принадлежать только одному классу. Выбранный тип нельзя изменить позже. Дополнительные сведения о типах проектов.

    A screenshot of the available custom classification project types.

  6. Введите сведения о проекте, включая имя, описание и язык документов в проекте. Если вы используете пример набора данных, выберите английский язык. Вы не сможете изменить имя проекта на более поздних этапах. Выберите Далее.

    Совет

    Набор данных не обязательно должен быть полностью на одном языке. У вас может быть несколько документов с разными поддерживаемыми языками. Если набор данных содержит документы с разными языками или если во время выполнения предполагается использовать тексты на разных языках, выберите параметр Включить многоязычный набор данных при вводе основных сведений о проекте. Этот параметр можно включить позже на странице Параметры проекта.

  7. Выберите контейнер, в который отправили набор данных.

    Примечание.

    Если вы уже наклеили данные, убедитесь, что он соответствует поддерживаемму формату и выберите "Да", мои документы уже помечены, и я отформатировал файл меток JSON и выберите файл меток в раскрывающемся меню ниже.

    Если вы используете один из примеров наборов данных, используйте включенный webOfScience_labelsFile или movieLabels json-файл. Затем выберите Далее.

  8. Проверьте введенные данные и щелкните Create Project (Создать проект).

Импорт проекта пользовательской классификации текстов

Если данные уже помечены, их можно использовать для начала работы со службой. Убедитесь, что помеченные данные соответствуют допустимым форматам данных.

  1. Войдите в Студию Языка. Появится окно, где можно выбрать свою подписку и ресурс служб "Язык". Выберите свой языковой ресурс.

  2. В разделе Классификация текста в Студии Языка выберите Пользовательская классификация текстов.

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. Щелкните Create new project (Создать новый проект) в меню в верхней части страницы проектов. Создав проект, вы сможете добавлять метки к данным, а также обучать, оценивать, улучшать и развертывать модели.

    A screenshot of the project creation page.

  4. Когда вы выберете Создать проект, появится экран, где вы сможете подключить учетную запись хранения. Если вы не можете найти свою учетную запись хранения, убедитесь, что вы создали ресурс, выполнив рекомендуемые действия. Если вы уже подключили учетную запись хранения к ресурсу Языка, вы увидите, что она подключена.

    Примечание.

    • Этот шаг нужно выполнить только один раз для каждого нового используемого ресурса Языка.
    • Этот процесс необратим. Если учетная запись хранения будет подключена к ресурсу службы "Язык", ее нельзя будет отключить позже.
    • Вы можете подключить ресурс службы "Язык" только к одной учетной записи хранения.

    A screenshot of the storage connection screen for custom classification projects.

  5. Выберите тип проекта. Вы можете создать проект Классификация по нескольким меткам, в котором каждый документ может принадлежать одному или нескольким классам, или проект Классификация по одной метке, в котором каждый документ может принадлежать только одному классу. Выбранный тип нельзя изменить позже.

    A screenshot of the available custom classification project types.

  6. Введите сведения о проекте, включая имя, описание и язык документов в проекте. Вы не сможете изменить имя проекта на более поздних этапах. Выберите Далее.

    Совет

    Набор данных не обязательно должен быть полностью на одном языке. У вас может быть несколько документов с разными поддерживаемыми языками. Если набор данных содержит документы с разными языками или если во время выполнения предполагается использовать тексты на разных языках, выберите параметр Включить многоязычный набор данных при вводе основных сведений о проекте. Этот параметр можно включить позже на странице Параметры проекта.

  7. Выберите контейнер, в который отправили набор данных.

  8. Нажмите кнопку "Да", мои документы уже помечены, и я отформатировал файл меток JSON и выберите файл меток в раскрывающемся меню ниже, чтобы импортировать файл меток JSON. Убедитесь, что он соответствует поддерживаемому формату.

  9. Выберите Далее.

  10. Проверьте введенные данные и щелкните Create Project (Создать проект).

Получение сведений о проекте

  1. Перейдите к странице настроек проекта в Language Studio.

  2. Вы можете просмотреть сведения о проекте.

  3. На этой странице можно изменить описание проекта и включить или отключить многоязычный набор данных.

  4. Вы также можете просмотреть подключенную учетную запись хранения и контейнер для ресурса службы "Язык".

  5. Кроме того, на этой странице вы можете получить ключ основного ресурса.

    A screenshot of the project settings page.

Удаление проекта

Если проект вам больше не нужен, вы можете удалить его с помощью Студии Языка. Выберите настраиваемую классификацию текста в верхней части и выберите проект, который вы хотите удалить. Выберите "Удалить" из верхнего меню, чтобы удалить проект.

Следующие шаги

  • Вы должны иметь представление о схеме проекта, которая будет использоваться для добавления меток к данным.

  • После создания проекта можно начать добавлять теги к данным, чтобы сообщить модели классификации текстов о способе интерпретации текста. Кроме того, теги используются для обучения и оценки.