Что такое пользовательское распознавание именованных сущностей?

Пользовательское NER — это одна из настраиваемых функций, предлагаемых языком ИИ Azure. Это облачная служба API, которая применяет логику машинного обучения для создания пользовательских моделей для задач пользовательского распознавания именованных сущностей.

Пользовательское распознавание именованных сущностей позволяет пользователям создавать настраиваемые модели ИИ для извлечения сущностей, относящихся к определенной предметной области, из неструктурированного текста, например, контрактов или финансовых документов. С помощью проекта настраиваемого NER разработчики могут итеративно маркировать данные, обучать и оценивать модель, а также повышать ее производительность, прежде чем сделать ее доступной для использования. Качество данных с метками значительно влияет на производительность модели. Чтобы упростить создание и настройку модели, служба предлагает настраиваемый веб-портал, доступ к которому можно получить с помощью Language Studio. Вы можете легко приступить к работе со службой, выполнив действия, описанные в этом кратком руководстве.

Эта документация включает статьи следующих типов:

Примеры сценариев использования

Пользовательское распознавание именованных сущностей можно использовать в нескольких сценариях в различных отраслях:

Извлечение сведений

Многие финансовые и юридические организации ежедневно извлекают и нормализуют данные из тысяч сложных неструктурированных текстов. В число таких источников входят банковские выписки, юридические соглашения и банковские формы. Например, извлечение данных ипотечных приложений вручную рецензентами может занять несколько дней. Автоматизация этих действий путем создания пользовательской модели распознавания именованных сущностей упрощает процесс и экономит затраты, время и усилия.

Возможность поиска является одной из ключевых функций любого приложения, которое предоставляет текстовое содержимое пользователям. К распространенным сценариям относится поиск по каталогу или документу, поиск по розничным продуктам и интеллектуальный анализ знаний для обработки и анализа данных. Многим предприятиям в различных отраслях нужна возможность детализированного поиска по частному разнородному содержимому, включающему как структурированные, так и неструктурированные документы. В рамках конвейера разработчики могут использовать пользовательское распознавание именованных сущностей для извлечения сущностей из текста, относящегося к их отрасли. Эти сущности можно использовать для обогащения индексирования файла в целях более специализированного поиска.

Аудит и соответствие

Вместо того чтобы вручную просматривать длинные текстовые файлы для выполнения аудита и применения политик, ИТ-отделы финансовых или юридических предприятий могут применять пользовательское Распознавание именованных сущностей (NER), чтобы создавать автоматизированные решения. С помощью таких решений можно применять политики соответствия и настраивать необходимые бизнес-правила на основе конвейеров интеллектуального анализа знаний, которые обрабатывают структурированное и неструктурированное содержимое.

Жизненный цикл разработки проекта

Использование пользовательского распознавания именованных сущностей обычно включает в себя несколько шагов.

Жизненный цикл разработки

  1. Определение схемы. Изучите данные и определите сущности, которые нужно извлечь. Исключите неоднозначности.

  2. Маркировка данных. Это является ключевым фактором при определении производительности модели. Маркируйте данные точно, согласованно и полностью.

    1. Добавляйте метки точно. Обязательно добавляйте метки правильного типа к каждой сущности. Включайте только те данные, которые нужно извлечь. Не добавляйте в метки ненужные данные.
    2. Добавляйте метки согласованно. К каждой сущности нужно добавлять одну и ту же метку во всех файлах.
    3. Добавляйте метки ко всем данным. Добавляйте метки ко всем экземплярам сущности во всех файлах.
  3. Обучение модели. Обучение модели начинается с изучения промаркированных данных.

  4. Просмотр сведений о производительности модели. После обучения просмотрите сведения об оценке модели и ее производительности, а также рекомендации по улучшению.

  5. Развертывание модели. Развернутая модель становится доступной для использования посредством API анализа.

  6. Извлечение сущностей. Используйте настраиваемые модели для задач извлечения сущностей.

Справочная документация и примеры кода

При использовании пользовательского NER ознакомьтесь со следующей справочной документацией и примерами для языка ИИ Azure:

Язык/вариант разработки Справочная документация Примеры
REST API (разработка) Документация по REST API
REST API (среда выполнения) Документация по REST API
C# (среда выполнения) Документация по C# Примеры для C#
Java (среда выполнения) Документация для Java Примеры для Java
JavaScript (среда выполнения) Документация по работе с JavaScript. Примеры JavaScript
Python (среда выполнения) Документация по Python. Примеры для Python

Ответственный подход к использованию ИИ

В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Ознакомьтесь с примечанием о прозрачности для пользовательского распознавания именованных сущностей, чтобы узнать больше об ответственном использовании и развертывании искусственного интеллекта в своих системах. Дополнительные сведения см. в следующих статьях:

Следующие шаги