Улучшение моделей с помощью гиперпараметров
Простым моделям с небольшими наборами данных часто достаточно одного шага, в то время как большие наборы данных и более сложные модели требуют нескольких прогонов с помощью модели с обучающими данными и сравнения выходных данных с ожидаемой меткой. Если прогноз достаточно точен, мы считаем модель обученной. В противном случае мы корректируем модель и повторяем цикл.
Гиперпараметры — это значения, которые изменяют способ обучения модели во время этих циклов. Скорость обучения, например, — это гиперпараметр, который задает степень корректировки модели во время каждого цикла обучения. Высокая скорость обучения означает, что модель может быть обучена быстрее; но если она слишком высока, корректировки могут быть настолько большими, что модель никогда не "тонко настроена" и не оптимальна.
Предварительная обработка данных
Предварительная обработка означает изменения, вносимые в данные перед их передачей в модель. Ранее мы прочитали, что предварительная обработка может включать очистку набора данных. Хотя это важно, предварительная обработка также может включать изменение формата данных, чтобы упростить использование модели. Например, данные, описанные как "красный", "оранжевый", "желтый", "лайм", и "зеленый", могут работать лучше, если они преобразуются в формат более собственный для компьютеров, например числа, в которых указано количество красного и зеленого цвета.
Масштабирование признаков
Наиболее распространенным этапом предварительной обработки является масштабирование признаков, чтобы они вписывались в диапазон от нуля до единицы. Например, вес велосипеда и расстояние, которое проедет человек, могут быть двумя очень разными числами, но их следует масштабировать таким образом, чтобы они попадали в диапазон от нуля до единицы. Это позволяет моделям более эффективно учиться на основе данных.
Использование категорий в качестве признаков
В машинном обучении можно также использовать категориальные признаки, такие как "велосипед", "скейтборд", или "автомобиль". Эти функции представлены 0 или 1 значениями в один горячих векторах; векторы с 0 или 1 для каждого возможного значения. Например, велосипед, скейтборд и автомобиль могут обозначаться как (1, 0, 0), (0, 1, 0) и (0, 0, 1) соответственно.