Улучшение модели ML.NET

Узнайте, как улучшить модель ML.NET.

Переформулируйте задачу

В некоторых случаях улучшение модели не связано с данными или методами, используемыми для обучения модели. Вместо этого можно просто переформулировать вопрос. Посмотрите на задачу под различными углами зрения и используйте данные для извлечения скрытых индикаторов и скрытых отношений, чтобы уточнить вопрос.

Укажите дополнительные образцы данных

Как и люди, чем больше данных получают алгоритмы обучения, тем выше вероятность того, что показатели будут лучше. Предоставление дополнительных примеров обучающих данных для алгоритмов является одним из способов повысить эффективность модели. Чем больше данных он получит, тем больше случаев он способен правильно определить.

Добавление контекста к данным

Значение одной точки данных может быть сложно интерпретировать. Создание контекста вокруг точки данных помогает алгоритмам, а также экспертам лучше принимать решения. Например, тот факт, что в доме три спальни, сам по себе не помогает определить его цену. Тем не менее, если добавить контекст и выяснить, что он находится в загородном районе большого города, где средний возраст составляет 38 лет, средний доход на семью составляет 80 000 долл. США, а учебные заведения находятся в верхнем 20-м процентиле, то алгоритм получает дополнительные сведения для решения. Все составляющие этого контекста могут добавляться в качестве входных данных для модели машинного обучения как признаки.

Используйте значимые данные и компоненты

Несмотря на то что дополнительные образцы данных и признаки помогут повысить точность модели, они также добавляют шум, так как не все данные и признаки являются значимыми. Важно понимать, какие признаки в наибольшей степени влияют на решения, вынесенные алгоритмом. С помощью таких методов, как перестановка важности признаков (PFI), можно определить эти ключевые признаки и не только лучше объяснить модель, но и использовать результат для отбора признаков с целью уменьшить объем признаков в процессе обучения.

Дополнительные сведения см. в статье Объяснение прогнозов модели с помощью функции PFI.

перекрестная проверка.

Кросс-валидация — это методика обучения и оценки модели, которая разбивает данные на несколько секций и обучает несколько алгоритмов на этих секциях. Этот метод повышает надежность модели, удерживая данные вне процесса обучения. Кроме повышения производительности на многих неучитываемых наблюдениях, в средах с ограниченными данными он может быть эффективным инструментом для обучения моделей с меньшим набором данных.

Перейдите по следующей ссылке, чтобы узнать, как пользоваться кросс-валидацией в ML.NET.

Настройка гиперпараметров

Обучение моделей машинного обучения — это итеративный исследовательский процесс. Например, каково оптимальное количество кластеров при обучении модели с помощью алгоритма K-средних? Ответ зависит от многих факторов, включая структуру данных. Для ответа требуется поэкспериментировать с различными значениями для K и затем оценить производительность, чтобы определить, какое значение лучше. Практика настройки параметров, направляющих процесс обучения для поиска оптимальной модели, называется настройкой гиперпараметра.

Выбор другого алгоритма

Такие задачи машинного обучения, как регрессия и классификация, содержат различные реализации алгоритмов. Может оказаться так, что задача, которую вы пытаетесь решить, и структура ваших данных не подходят для текущего алгоритма. В этом случае рассмотрите возможность использования другого алгоритма для решения ваших задач, если он учится на ваших данных лучше.

По следующей ссылке вы найдете рекомендации по выбору алгоритмов.