Преобразование в SVMLight

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Преобразует входные данные в формат, используемый платформой SVMLight.

Категория: преобразования форматов данных

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль convert to SVMLight в Машинное обучение Studio (классическая модель) для преобразования наборов данных в формат, используемый SVMLight.

Платформа SVMLight была разработана исследователями Корнелльского университета. Библиотека SVM-Light реализует компьютер вектора поддержки Вапник, но этот формат был принят в других целях и может использоваться для многих задач машинного обучения, включая классификацию и регрессию.

Дополнительные сведения см. в разделе SVMLight поддержка векторной машины.

Настройка преобразования в SVMLight

Преобразование в формат SVMLight влечет за собой преобразование каждого случая в строку данных, которая начинается с метки, за которыми следуют пары "функция-значение", выраженные в виде чисел, разделенных двоеточием. В процессе преобразования не выполняется автоматическая оценка правильных столбцов, поэтому перед началом преобразования важно подготовить столбцы в наборе данных. Дополнительные сведения см. в разделе Подготовка данных к преобразованию.

  1. Добавьте модуль Convert to SVMLight в свой эксперимент. этот модуль можно найти в категории преобразования форматов данных в Машинное обучение Studio (классическая модель).

  2. Подключение набор данных или выходные данные, которые необходимо преобразовать в формат SVMLight.

  3. Запустите эксперимент.

  4. Щелкните правой кнопкой мыши выходные данные модуля, выберите скачатьи сохраните данные в локальный файл для изменения или повторного использования с программой, поддерживающей SVMLight.

Подготовка данных к преобразованию

Чтобы проиллюстрировать процесс преобразования, в этом примере используется набор данных о спонсоре для крови в студии (классическая модель).

Этот образец набора данных имеет следующий формат в табличной форме.

реценци Частота Сумма Time Класс
2 50 12 500 98 1
0 13 3 250 28 1
1 1 4000 35 1
2 20 5000 45 1
1 24 6000 77 0

Обратите внимание, что столбец Label с именем [Class] в этом наборе данных является последним столбцом в таблице. Однако при преобразовании набора данных в SVMLight без предварительного указания того, что столбец содержит метку, первый столбец, [Реценци], используется в качестве метки, а столбец [Class] рассматривается как функция.

2 1:50 2:12500 3:98 4:1
0 1:13 2:3250 3:28 4:1
1 1:16 2:4000 3:35 4:1

Чтобы убедиться, что метки правильно сформированы в начале строки для каждого варианта, необходимо добавить два экземпляра модуля изменить метаданные .

  1. В первом экземпляре редактирования метаданныхвыберите столбец метка ([класс]), а для полявыберите Метка.

  2. На втором экземпляре редактирования метаданныхвыберите все необходимые столбцы в преобразованном файле ([реценци], [Frequency], [денежная], [Time]) и для полейвыберите компоненты.

После правильного определения столбцов можно выполнить Преобразование в модуль SVMLight . После преобразования первые несколько строк набора данных о спонсоре благотворителей теперь имеют следующий формат:

  • Значение метки предшествует каждой записи, за которой следуют значения [Реценци], [Frequency], [денежные] и [Time], которые определены как функции 1, 2, 3 и 4 соответственно.

  • Значение метки 0 в пятой строке было преобразовано в-1. Это обусловлено тем, что SVMLight поддерживает только метки двоичной классификации.

1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28
1 1:1 2:16 3:4000 4:35
1 1:2 2:20 3:5000 4:45
-1 1:1 2:24 3:6000 4:77

вы не можете напрямую использовать эти текстовые данные для моделей в ML Azure или визуализировать их. Однако его можно загрузить в локальную общую папку.

Пока файл открыт, мы рекомендуем добавить строку комментария с # префиксом, чтобы можно было добавлять заметки об источнике или именах столбцов в исходном компоненте.

Чтобы использовать файл SVMLight в Vowpal Wabbit и внести дополнительные изменения, описанные здесь: Преобразование в формат Vowpal Wabbit. Когда файл будет готов, отправьте его в хранилище BLOB-объектов Azure и назовите его непосредственно из одного из модулей Vowpal Wabbit.

Примеры

В Коллекция решений ии Azureнет примеров, относящихся к этому формату.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

Исполняемые файлы, предоставленные в SVM-Light Framework, должны иметь как файл примера , так и файл модели. Тем не менее, этот модуль создает только образец файла. Файл модели необходимо создать отдельно с помощью библиотек SVMLight.

Пример файла — это файл, содержащий примеры обучения.

  • Необязательный заголовок

    Первые строки могут содержать комментарии. К комментариям следует добавлять префикс в виде символа решетки (#).

    Формат файла, получаемый в результате преобразования в SVMLight, не создает заголовков Файл можно изменить, добавив комментарии, список имен столбцов и т. д.

  • Обучающие данные

    Каждый вариант находится в отдельной строке. Вариант состоит из целевого значения, за которым следует ряд индексов и значений связанных компонентов.

    Значение ответа должно быть 1 или -1 для классификации или число для регрессии.

    Целевое значение и каждая из пар значение-индекс разделяются пробелом.

Пример обучающих данных

В следующей таблице показано, как значения в столбцах набора данных IRI Two-Class преобразуются в представление, в котором каждый столбец представлен индексом, за которым следует двоеточие, а затем значение в этом столбце.

Набор данных Iris Набор данных Iris, преобразованный SVMLight
1 6,3 2,9 5,6 1,8 1 1:6.3 2:2.9 3:5.6 4:1.8
0 4,8 3,4 1,6 0,2 -1 1:4.8 2:3.4 3:1.6 4:0,2
1 7,2 3,2 6 1,8 1 1:7,2 2:3.2 3:6 4:1.8

Обратите внимание, что имена столбцов компонента теряются при преобразовании.

Использование SVMLight для подготовки файла Vowpal Wabbit

Формат SVMLight аналогичен формату, используемому Vowpal Wabbit. Чтобы изменить выходной файл SVMLight на формат, используемый для обучения модели Wabbit Vowpal, просто добавьте символ вертикальной черты между меткой и списком функций.

Например, Сравните следующие строки входных данных:

Формат Wabbit Vowpal, включая необязательный комментарий

# features are [Recency], [Frequency], [Monetary], [Time]
1 | 1:2 2:50 3:12500 4:98
1 | 1:0 2:13 3:3250 4:28

Формат SVMLight, включая необязательный комментарий

# features are [Recency], [Frequency], [Monetary], [Time]
1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Выходные данные

Имя Тип Описание
Набор данных результатов SvmLight Выходной набор данных

См. также раздел

Преобразование формата данных
Список модулей в алфавитном порядке