Настройка проекта маркировки текста и экспорта меток
В Машинное обучение Azure узнайте, как создавать и запускать проекты маркировки данных для маркировки текстовых данных. Укажите одну метку или несколько меток для применения к каждому текстовому элементу.
Вы также можете использовать средство маркировки данных в Машинное обучение Azure для создания проекта маркировки изображений.
Возможности создания меток текста
Машинное обучение Azure метки данных — это инструмент, который можно использовать для создания, управления и мониторинга проектов маркировки данных. Он используется для следующих задач:
- Координируйте данные, метки и работу команды, чтобы эффективно управлять задачами добавления меток.
- Отслеживайте ход выполнения и сохраняйте очередь неполных задач маркировки.
- Запустите и остановите проект и управляйте ходом выполнения маркировки.
- Просмотрите и экспортируйте помеченные данные в виде набора данных Машинное обучение Azure.
Внимание
Текстовые данные, с которыми вы работаете в средстве маркировки данных Машинное обучение Azure, должны быть доступны в хранилище данных Хранилище BLOB-объектов Azure. Если у вас нет существующего хранилища данных, вы можете передать файлы данных в новое хранилище данных при создании проекта.
Эти форматы данных доступны для текстовых данных:
- .txt. Каждый файл представляет один элемент, который будет помечен.
- .csv или TSV: каждая строка представляет один элемент, представленный метчику. Вы решаете, какие столбцы метка может видеть, когда они помечают строку.
Необходимые компоненты
Эти элементы используются для настройки текстовых меток в Машинное обучение Azure:
- Данные, которые нужно пометить, в локальных файлах или в Хранилище BLOB-объектов Azure.
- Набор меток, которые вы хотите применить.
- Инструкции по добавлению меток.
- Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
- Рабочая область Машинного обучения Azure. См. сведения о создании рабочей области машинного обучения Azure.
Создайте проект добавления меток для текста
Проекты маркировки администрируются в Машинное обучение Azure. Используйте страницу маркировки данных в Машинное обучение для управления проектами.
Если данные уже Хранилище BLOB-объектов Azure, убедитесь, что он доступен в качестве хранилища данных перед созданием проекта маркировки.
Чтобы создать проект, щелкните Добавить проект.
Введите имя проекта в соответствующее поле.
Вы не можете повторно использовать имя проекта, даже если удалить проект.
Чтобы создать проект маркировки текста, для типа мультимедиа выберите текст.
Для типа задачи маркировки выберите вариант для вашего сценария:
- Чтобы применить только одну метку к каждому фрагменту текста из набора меток, выберите многоклассовую классификацию текста.
- Чтобы применить одну или несколько меток к каждому фрагменту текста из набора меток, выберите многоэтапную классификацию текста.
- Чтобы применить метки к отдельным текстовым словам или нескольким текстовым словам в каждой записи, выберите распознавание именованных сущностей текста.
Выберите Далее для продолжения.
Добавление сотрудников (необязательно)
Выбирайте Использовать компанию маркировки из Azure Marketplace только в том случае, если вы включили компанию маркировки данных в Azure Marketplace. Затем выберите поставщика. Если поставщик не отображается в списке, снимите этот параметр.
Убедитесь, что вы сначала обратитесь к поставщику и подписываете контракт. Дополнительные сведения см. в разделе "Работа с данными, помеченными компанией-поставщиком" (предварительная версия).
Выберите Далее для продолжения.
Выбор или создание набора данных
Если вы уже создали набор данных, содержащий данные, выберите его в раскрывающемся списке "Выбор существующего набора данных". Вы также можете выбрать "Создать набор данных" для использования существующего хранилища данных Azure или для отправки локальных файлов.
Примечание.
Проект не может содержать более 500 000 файлов. Если набор данных превышает это число файлов, загружаются только первые 500 000 файлов.
Создание набора данных из хранилища данных Azure
Во многих случаях можно отправлять локальные файлы. Однако служба хранилища Azure Explorer обеспечивает более быстрый и надежный способ передачи большого объема данных. Мы рекомендуем по умолчанию использовать Обозреватель службы хранилища для перемещения файлов.
Чтобы создать набор данных из данных, которые уже хранятся в хранилище BLOB-объектов:
- Нажмите кнопку создания.
- В поле "Имя" введите имя набора данных. Также можно ввести описание.
- Выберите тип набора данных:
- Если вы используете .csv или TSV-файл , а каждая строка содержит ответ, выберите табличный.
- Если вы используете отдельные .txt файлы для каждого ответа, выберите "Файл".
- Выберите Далее.
- Выберите "Из хранилища Azure" и нажмите кнопку "Далее".
- Выберите хранилище данных и нажмите кнопку "Далее".
- Если данные вложенной папке в хранилище BLOB-объектов, выберите "Обзор ", чтобы выбрать путь.
- Чтобы включить все файлы в вложенные папки выбранного пути, добавьте
/**
его в путь. - Чтобы включить все данные в текущий контейнер и ее вложенные папки, добавьте
**/*.*
его в путь.
- Чтобы включить все файлы в вложенные папки выбранного пути, добавьте
- Нажмите кнопку создания.
- Выберите созданный ресурс данных.
Создание набора данных из отправленных данных
Чтобы отправить данные напрямую, сделайте следующее:
- Нажмите кнопку создания.
- В поле "Имя" введите имя набора данных. Также можно ввести описание.
- Выберите тип набора данных:
- Если вы используете .csv или TSV-файл , а каждая строка содержит ответ, выберите табличный.
- Если вы используете отдельные .txt файлы для каждого ответа, выберите "Файл".
- Выберите Далее.
- Выберите " Из локальных файлов" и нажмите кнопку "Далее".
- (Необязательно) Выберите хранилище данных. Значение по умолчанию отправляется в хранилище BLOB-объектов по умолчанию (workspaceblobstore) для рабочей области Машинное обучение.
- Выберите Далее.
- Выберите "Отправить>файлы" или "Отправить>", чтобы выбрать локальные файлы или папки для отправки.
- Найдите файлы или папку в окне браузера и нажмите кнопку "Открыть".
- Нажимайте кнопку "Отправить ", пока не укажете все файлы и папки.
- При необходимости установите флажок "Перезаписать", если он уже существует . Проверьте список файлов и папок.
- Выберите Далее.
- Подтвердите введенные данные. Нажмите кнопку "Назад", чтобы изменить параметры, или нажмите кнопку "Создать", чтобы создать набор данных.
- Наконец, выберите созданный ресурс данных.
Настройка добавочного обновления
Если вы планируете добавить новые файлы данных в набор данных, используйте добавочное обновление для добавления файлов в проект.
При установке добавочного обновления с регулярными интервалами набор данных периодически проверяется для добавления новых файлов в проект на основе скорости завершения меток. Проверка на наличие новых данных прекращается, если проект содержит максимальное число файлов (500 000).
Выберите Включить добавочное обновление, если нужно, чтобы в хранилище данных для проекта постоянно отслеживалось появление новых данных.
Снимите флажок, если вы не хотите, чтобы новые файлы в хранилище данных автоматически добавлялись в проект.
Внимание
Если добавочное обновление включено, не создавайте новую версию для набора данных, который требуется обновить. Если это сделать, обновления не будут отображаться, так как проект маркировки данных закреплен на начальной версии. Вместо этого используйте обозреватель служба хранилища Azure для изменения данных в соответствующей папке в хранилище BLOB-объектов.
Кроме того, не удаляйте данные. Удаление данных из набора данных, который использует проект, приводит к ошибке в проекте.
После создания проекта перейдите на вкладку "Сведения " для изменения добавочного обновления, просмотрите метку времени последнего обновления и запросите немедленное обновление данных.
Примечание.
Проекты, использующие входные данные табличного набора данных (.csv или TSV), могут использовать добавочное обновление. Но добавочное обновление добавляет только новые табличные файлы. Обновление не распознает изменения существующих табличных файлов.
Указание категорий меток
На странице категорий меток укажите набор классов для классификации данных.
Точность и скорость меток влияют на их способность выбирать между классами. Например, вместо полных наименований видов и родов растений или животных используйте кодовые или сокращенные наименования.
Можно использовать плоский список или создавать группы меток.
Чтобы создать неструктурированный список, выберите " Добавить категорию меток", чтобы создать каждую метку.
Чтобы создать метки в разных группах, выберите " Добавить категорию меток", чтобы создать метки верхнего уровня. Затем выберите знак плюса (+) под каждым верхним уровнем, чтобы создать следующий уровень меток для этой категории. Вы можете создать до шести уровней для любой группировки.
Вы можете выбрать метки на любом уровне во время процесса добавления тегов. Например, метки , Animal/Cat
, Animal/Dog
, Color
Color/Black
, Color/White
и Color/Silver
все доступные варианты Animal
для метки. В проекте с несколькими метками нет необходимости выбирать одну из каждой категории. Если это ваше намерение, обязательно включите эти сведения в инструкции.
Описание задачи маркировки текстовых данных
Важно четко объяснить задачу добавления меток. На странице инструкций по маркировке можно добавить ссылку на внешний сайт с инструкциями по маркировке или указать инструкции в поле редактирования на странице. Инструкции должны описывать конкретные задачи понятным для целевой аудитории образом. Обдумайте следующие вопросы:
- Какие метки будут видеть и как они будут выбирать среди них? Есть ли справочный текст, которым можно пользоваться?
- Что делать, если ни одна метка не подходит?
- Что делать, если подходят несколько меток?
- Какой уровень достоверности следует применять к метке? Вы хотите, чтобы метка лучше всего догадалась, если они не уверены?
- Что делать с частично перекрытыми объектами?
- Что делать, если объект обрезается краем изображения?
- Что делать, если они думают, что они сделали ошибку после того, как они отправить метку?
- Что делать, если они обнаруживают проблемы с качеством изображения, включая плохие условия освещения, отражения, потерю фокуса, нежелательный фон включен, аномальные угловы камеры и т. д.?
- Что делать, если несколько рецензентов имеют разные мнения о применении метки?
Примечание.
Метки могут выбирать первые девять меток с помощью числовых ключей 1–9.
Контроль качества (предварительная версия)
Чтобы получить более точные метки, используйте страницу управления качеством для отправки каждого элемента нескольким меткам.
Внимание
Метка консенсуса в настоящее время доступна в общедоступной предварительной версии.
Предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендована для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены.
Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Чтобы отправить каждый элемент нескольким метчикам, выберите Включить метку консенсуса (предварительная версия). Затем задайте значения для минимальных меток и максимальных меток , чтобы указать количество используемых меток. Убедитесь, что у вас есть максимальное число меток. Эти параметры нельзя изменить после запуска проекта.
Если достигнут консенсус из минимального числа меток, элемент будет помечен. Если консенсус не достигнут, элемент отправляется нескольким метчикам. Если после того, как элемент не будет достигнут максимальное количество меток, его состояние — "Проверка потребностей", а владелец проекта отвечает за маркировку элемента.
Использование маркировки данных с применением машинного обучения
Чтобы ускорить задачи маркировки, страница с поддержкой машинного обучения может активировать модели автоматического машинного обучения. С помощью машинного обучения метки можно обрабатывать текстовые данные как для файлов (.txt), так и табличных (.csv).
Чтобы использовать маркировку с помощью машинного обучения, необходимо выполнить следующие действия:
- Выберите Включить маркировку с помощью машинного обучения.
- Выберите Язык набора данных для проекта. В этом списке показаны все языки, поддерживаемые классом TextDNNLanguages.
- Укажите используемый целевой объект вычислений. Если в рабочей области нет целевого объекта вычислений, этот шаг создает вычислительный кластер и добавляет его в рабочую область. Кластер создается как минимум с нулевыми узлами, и он не стоит ничего, если он не используется.
Дополнительные сведения об использовании меток с помощью машинного обучения
В начале проекта маркировки элементы перетасовываются в случайный порядок, чтобы уменьшить потенциальную предвзятость. Однако обученная модель отражает любые предвзятые представления, присутствующих в наборе данных. Например, если 80 процентов ваших элементов имеют один класс, то примерно 80 процентов данных, которые используются для обучения модели земли в этом классе.
Чтобы обучить модель DNN текста, которая используется с помощью меток машинного обучения, входной текст для каждого примера обучения ограничен примерно первым 128 словами в документе. Для табличных входных данных все текстовые столбцы объединяются до применения этого ограничения. Это практическое ограничение позволяет обучению модели выполняться в разумный период времени. Текст в документе (для входного файла) или набор текстовых столбцов (для табличного входного файла) фактически может быть больше, чем 128 слов. Ограничение относится только к тому, что модель внутренне использует во время обучения.
Число помеченных элементов, необходимых для запуска вспомогательных меток, не является фиксированным числом. Это число может значительно отличаться от одного проекта маркировки к другому. Дисперсию зависит от многих факторов, включая количество классов меток и распределение меток.
При использовании меток консенсуса метка консенсуса используется для обучения.
Так как окончательные метки по-прежнему полагаются на входные данные от метки, эта технология иногда называется меткой "человек в цикле ".
Примечание.
Метка данных с поддержкой машинного обучения не поддерживает учетные записи хранения по умолчанию, защищенные за виртуальной сетью. Для меток данных с поддержкой машинного обучения необходимо использовать учетную запись хранения, не используемую по умолчанию. Учетная запись хранения, не используемая по умолчанию, может быть защищена виртуальной сетью.
Предварительная маркировка
После отправки достаточного количества меток для обучения обученная модель используется для прогнозирования тегов. Теперь метка отображает страницы, в которых отображаются прогнозируемые метки, которые уже присутствуют на каждом элементе. Затем задача включает в себя просмотр этих прогнозов и исправление любых неправильных элементов перед отправкой страницы.
После обучения модели машинного обучения на данных, помеченных вручную, модель оценивается на тестовом наборе элементов, помеченных вручную. Оценка помогает определить точность модели при различных пороговых значениях достоверности. Процесс оценки задает порог доверия, за пределами которого модель достаточно точную, чтобы отобразить предварительные метки. Затем модель оценивается по немаркированным данным. Элементы, имеющие прогнозы, которые более уверены, чем пороговое значение, используются для предварительной маркировки.
Инициализация проекта маркировки текстовых данных
После инициализации проекта добавления меток вы не сможете изменить некоторые его аспекты. Например, нельзя изменить тип задачи или набор данных. Но вы можете изменять метки и URL-адрес с описанием задачи. Внимательно проверьте параметры перед созданием проекта. После отправки проекта вернитесь на страницу обзора меток данных, в которой проект отображается как инициализация.
Примечание.
Страница обзора может не обновляться автоматически. После приостановки вручную обновите страницу, чтобы просмотреть состояние проекта как созданное.
Устранение неполадок
Проблемы с созданием проекта или доступом к данным см. в разделе "Устранение неполадок с метками данных".