Поделиться через


Подготовка данных для расширенного машинного обучения

Предварительная обработка и очистка данных являются важными задачами, которые необходимо выполнить перед использованием набора данных для обучения модели. Необработанные данные часто шумные и ненадежные, и могут быть отсутствующими значениями. Использование таких данных при моделировании может приводить к неверным результатам. Эти задачи являются частью процесса Обработка и анализ данных команды (TDSP) и обычно следуют первоначальному изучению набора данных, используемого для обнаружения и планирования необходимой предварительной обработки. Дополнительные сведения см. в статье "Что такое процесс Обработка и анализ данных команды?".

Задачи предварительной обработки и очистки, такие как задача исследования данных, могут выполняться в различных средах, таких как SQL или Hive или Студия машинного обучения Azure (классическая модель). Вы также можете использовать различные инструменты и языки, такие как R или Python. Где хранятся данные и как его формат влияет на эти решения. Так как TDSP является итеративным в природе, эти задачи могут выполняться на различных этапах в рабочем процессе процесса.

В этой статье представлены различные концепции обработки данных и задачи, которые можно выполнять до или после приема данных в Студия машинного обучения Azure (классическая модель).

Пример изучения и предварительной обработки данных, выполненных внутри Студия машинного обучения Azure (классической), см. в видео, предварительной обработке данных.

Почему предварительная обработка и очистка данных?

Реальные данные собираются из различных источников и процессов, и они могут содержать нарушения или повреждения данных, которые подрывают качество набора данных. Вот какими могут быть типичные проблемы с качеством данных:

  • Неполные данные: не хватает атрибутов или содержит отсутствующие значения
  • Шумные данные: содержит ошибочные записи или выбросы
  • Несогласованные данные: содержит конфликтующие записи или несоответствия

Качественные данные — это необходимое условие для создания качественных моделей прогнозирования. Чтобы избежать мусора, отсортировать и повысить качество данных и, следовательно, повысить производительность модели, необходимо провести экран работоспособности данных, чтобы обнаружить проблемы с данными раньше. Необходимо принять решение о соответствующих шагах по обработке и очистке данных.

Какие есть стандартные методы мониторинга работоспособности данных

Вы можете проверка общее качество данных, проверка:

  • Количество записей.
  • количество атрибутов (или компонентов);
  • Типы данных атрибута, такие как номинальный, порядковый или непрерывный.
  • Количество пропущенных значений.
  • Для хорошо сформированных данных.
    • Если данные имеют формат TSV или CSV, проверка, что разделители столбцов и разделители строк правильно разделяют столбцы и строки.
    • Если данные в формате HTML или XML, проверка, если данные хорошо сформированы на основе соответствующих стандартов.
    • Синтаксический анализ также может потребоваться для извлечения структурированной информации из полуструктурированных или неструктурированных данных.
  • Несогласованные записи данных. Проверьте допустимость диапазона значений. Например, если данные содержат средние показатели оценки учащихся (GPA), проверка, если политики находятся в указанном диапазоне, например от 0 до 4.

При поиске проблем с данными выполните действия по обработке, например очистка отсутствующих значений, нормализация данных, дискретизация, обработка текста для удаления или замены внедренных символов, которые могут повлиять на выравнивание данных, смешанные типы данных в общих полях и другие.

В машинном обучении Azure используются табличные данные правильного формата. Если данные уже в табличной форме, можно выполнять предварительную обработку данных непосредственно с помощью Студия машинного обучения Azure (классической). Если данные не в табличной форме, например в формате XML, может потребоваться проанализировать данные, чтобы преобразовать их в табличную форму.

Каковы некоторые из основных задач при предварительной обработке данных?

  • Очистка данных — восполнение пропущенных значений, обнаружение и удаление искаженных данных и выбросов.
  • Преобразование данных — нормализация данных для снижения измерений и искажений.
  • Уплотнение данных — создание выборки данных или атрибутов для упрощения обработки данных.
  • Дискретизация данных — преобразование непрерывных атрибутов в категориальные, чтобы проще было использовать некоторые методы машинного обучения.
  • Очистка текста: удалите внедренные символы, которые могут вызвать несоответствие данных. Например, они могут быть внедренными вкладками в файл данных с разделиемыми вкладками или внедренными новыми строками, которые разбивают записи.

В следующих разделах подробно описаны некоторые из этих шагов обработки данных.

Как обрабатывать пропущенные значения

Чтобы справиться с отсутствующими значениями, сначала определите причину отсутствующих значений. Вот какие бывает методы обработки пропущенных значений:

  • Удаление: удаление записей с отсутствующими значениями.
  • Фиктивная подстановка: замените отсутствующие значения фиктивными значениями, например неизвестными для категориальных значений или 0 для числовых значений.
  • Подстановка среднего значения: пропущенные числовые данные можно заменить средним значением.
  • Частое подстановка: если отсутствующие данные категориальные, замените отсутствующие значения наиболее частым элементом.
  • Подстановка по регрессии: использование регрессионного метода для замены пропущенных значений регрессионными.

Как нормализовать данные

Нормализация данных позволяет масштабировать числовые значения в указанном диапазоне. Ниже представлены распространенные методы нормализации данных.

  • Минимальная нормализация: линейно преобразуйте данные в диапазон, например от 0 до 1, где минимальное значение масштабируется до 0, а максимальное значение масштабируется до 1.
  • Нормализация показателей Z: масштабирование данных на основе среднего и стандартного отклонения. Разделите разницу между данными и средним по стандартному отклонению.
  • Десятичное масштабирование: масштабирование данных путем удаления десятичного разделителя значения атрибута.

Как дискретизировать данные

Данные можно дискретизировать, преобразовав непрерывные значения в номинальные атрибуты или интервалы. Можно использовать следующие методы:

  • Бинирование равной ширины: разделите диапазон всех возможных значений атрибута на группы N одного размера и назначьте значения, которые падают в ячейку с номером ячейки.
  • Бинирование равной высоты: разделите диапазон всех возможных значений атрибута на группы N , каждый из которых содержит одинаковое количество экземпляров. Затем назначьте значения, которые попадают в ячейку с номером ячейки.

Как сократить объем данных

Существуют различные методы, с помощью которых вы можете уменьшить размер данных для упрощения обработки данных. В зависимости от размера данных и домена можно применить следующие методы:

  • Выборка записей: пример записей данных и выборка только репрезентативного подмножества из данных.
  • Выборка атрибутов: выберите только подмножество наиболее важных атрибутов из данных.
  • Агрегирование: разделение данных на группы и хранение числовых значений для каждой группы. Например, для уменьшения размера данных вы можете агрегировать числа, обозначающие ежедневный доход сети ресторанов за последние 20 лет, так, чтобы указывался ежемесячный доход.

Как очистить данные

Текстовые поля в табличных данных могут содержать символы, влияющие на выравнивание столбцов или границы записей. Например, табуляции, внедренные в файл с разделителем-табуляцией, могут сбить выравнивание столбцов, а внедренные символы новой строки могут разорвать линии записей. При написании или чтении текста правильно обработайте кодировку текста, чтобы предотвратить потерю информации, непреднамеренно вводя нечитаемые символы (например, null) или отрицательно влияя на анализ текста. Возможно, вам придется тщательно проанализировать и изменить данные. Вы можете очистить текстовые поля, чтобы обеспечить правильное выравнивание и извлечение структурированных данных из неструктурированных или полуструктурированных данных.

Исследование данных обеспечивает раннее представление данных. Во время этого шага можно выявить множество проблем с данными и применить соответствующие методы для решения этих проблем. Важно задавать вопросы, такие как то, что является источником проблемы и как была введена проблема. Этот процесс также помогает решить действия по обработке данных, которые необходимо выполнить для их устранения. Чтобы определить приоритеты усилий по обработке данных, можно определить окончательные варианты использования и лица.

Ссылки

Интеллектуальный анализ данных: концепции и методы. Издание третье, Morgan Kaufmann Publishers, 2011. Цзявей Хань (Jiawei Han), Мишлин Кэмбер (Micheline Kamber) и Цзянь Пей (Jian Pei)

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Следующие шаги