Замена дискретных значений

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Заменяет дискретные значения из одного столбца числовыми значениями из другого столбца

Категория: статистические функции

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается использование модуля замены дискретных значений в Машинное обучение Studio (классическая модель) для создания оценки вероятности, которая может быть использована для представления дискретного значения. Эта оценка может быть полезной для понимания информационного значения дискретных значений.

Принцип работы.

Выберите столбец, содержащий дискретное значение (или категория), а затем выберите другой столбец для использования в качестве ссылки.

В зависимости от того, является ли второй столбец категориями или не относится к категории, модуль выдает одно из следующих значений:

Условная вероятность для второго столбца с учетом значений в первом столбце.
Среднее и стандартное отклонение для каждой группы значений в первом столбце.

Модуль выводит как набор данных с оценками, так и функцию, которую можно сохранить и применить к другим наборам данных.

Настройка замены дискретных значений

Совет

В каждый момент времени рекомендуется работать только с одной парой столбцов. Модуль не вызывает ошибку, если выбрано несколько столбцов для анализа. Однако на практике при выборе нескольких столбцов они сопоставляются внутренним эвристическим алгоритмом, а не по порядку выбора.

Поэтому рекомендуется каждый раз выбирать одну пару столбцов, одну для дискретных столбцов и одну для замещения столбцов.

Если необходимо создать оценки для нескольких столбцов, используйте отдельные экземпляры Replace дискретные значения.

Добавьте модуль замены дискретных значений в свой эксперимент. этот модуль можно найти в группе статистические функции в списке элементы эксперимента в Машинное обучение Studio (классическая модель).
Подключение набор данных, содержащий хотя бы один столбец данных по категориям.
Дискретные столбцы: нажмите кнопку запустить селектор столбцов , чтобы выбрать столбец, содержащий дискретные значения (или категории категорий).

Все выбранные дискретные столбцы должны быть упорядочены по категориям. Если возникает ошибка, измените тип столбца с помощью модуля изменение метаданных .
Заменяющие столбцы: нажмите кнопку запустить селектор столбцов , чтобы выбрать столбец, содержащий значения, используемые при вычислении оценки замены.

Если для дискретных столбцоввыбрано несколько столбцов, необходимо выбрать одинаковое число заменяющих столбцов.
Запустите эксперимент.

Примечание

Нельзя выбрать, какую статистическую функцию применить. Модуль вычисляет подходящую меру на основе типа данных столбца, выбранного для столбца замещения.

Результаты

Модуль рассчитывает одно из следующих значений для каждой пары столбцов:

Если второй столбец содержит значения категории, модуль рассчитывает условную вероятность второго столбца, учитывая значения в первом столбце.

Например, предположим, что выбран occupation из набора данных перепись в качестве дискретного столбца и выбран gender в качестве заменяющего столбца. Выходные данные модуля будут выглядеть так:

P(gender | occupation)
Если второй столбец содержит значения, не упорядоченные по категориям, которые можно преобразовать в числа (например, числовые или логические значения, не помеченные как категория), то модуль выводит Среднее и стандартное отклонение для каждой группы значений в первом столбце.

Например, предположим, что используется occupation в качестве дискретного столбца , а второй столбец — числовой столбец hours-per-week . Модуль выводит следующие новые значения:

Mean(hours-per-week | occupation)

Std-Dev(hours-per-week | occupation)

Помимо оценки вероятности, модуль также выводит преобразованный набор данных. В этом наборе данных столбец, выбранный в качестве заменяющего столбца , заменяется на столбец, содержащий вычисленные показатели.

Совет

Столбцы в исходном наборе данных фактически не изменяются или удаляются операцией. столбцы оценки — это новые, созданные модулем и выходные данные вместо исходных данных.

Чтобы просмотреть исходные значения вместе с показателями вероятности, используйте модуль Добавление столбцов .

Примеры

Использование замены дискретных значений может быть продемонстрировано в некоторых простых примерах.

Пример 1. замена значения категории на показатель вероятности

Следующая таблица содержит категориальный столбец X и столбец Y со значениями True или False, которые рассматриваются как категориальные значения. При использовании замены дискретных значенийвычисляется условная оценка вероятности для вероятности Y, заданной X, как показано в третьем столбце.

X	Y	P(Y\|X)
Синий	0	`P(Y=0\|X=Blue) = 0.5`
Синий	1	`P(Y=1\|X=Blue) = 0.5`
Зеленый	0	`P(Y=0\|X=Green) = 2/3`
Зеленый	0	`P(Y=0\|X=Green) = 2/3`
Зеленый	1	`P(Y=1\|X=Green) = 1/3`
Красный	0	`P(Y=0\|X=Red) = .75`
Красный	0	`P(Y=0\|X=Red) = .75`
Красный	1	`P(Y=1\|X=Red) = .25`
Красный	0	`P(Y=0\|X=Red) = .75`

Пример 2. вычислить среднее и стандартное отклонение по столбцу, не упорядоченному по категориям

Если второй столбец является числовым, Замена дискретных значений вычисляет среднее и стандартное отклонение вместо оценки условной вероятности.

Следующий пример основан на образце набора данных Auto prices , упрощенном следующим образом:

Выбрано небольшое подмножество столбцов.
Извлекаются только первые 30 строк, с помощью параметра head модуля Partition и Sample .
Модуль замены дискретных значений использовался для вычисления среднего и стандартного отклонения для веса "бордюр". с учетом столбца категорий, num-of-doors .

В следующей таблице показаны результаты.

Текст	Число-дверей	Снаряженный-вес	Mean(снаряженный-вес\|число-дверей)	Std-Dev(снаряженный-вес\|число-дверей)
стандарт	two	2548	2429,785714	507,45699
стандарт	четыре	2337	2625,6	493,409877
стандарт	two	2507	2429,785714	507,45699
турбо	четыре	3086	2625,6 5	493,409877
стандарт	четыре	1989	2625,6	493,409877
турбо		2191
стандарт	четыре	2535	2625,6	493,409877

Чтобы проверить среднее значение для каждой группы значений, используйте AVERAGEIF функцию в Excel.

Пример 3. Обработка отсутствующих значений

В этом примере показано, как отсутствующие значения (значения NULL) распространяются на результаты при вычислении результатов условной вероятности.

Если столбец дискретных значений и столбец уточняющего вычисления содержат какие-либо отсутствующие значения, то такие значения передаются в новый столбец.
Если столбец дискретных значений содержит только отсутствующие значения, модуль не может обработать такой столбец, и появляется сообщение об ошибке.

X	Y	P(Y\|X)
1	Да	`P(Y=true\|X=1) = 1/2`
1	False	`P(Y=false\|X=1) = 1/2`
2	True	`P(Y=true\|X=2) = 1/3`
2	False	`P(Y=false\|X=2) = 1/3`
2	NULL	`P(Y=null\|X=2) = null`

Технические примечания

Необходимо убедиться, что все дискретные столбцы, которые необходимо заменить, являются категориальными, или модуль вернет ошибку. Для этого используйте модуль изменение метаданных .
Если второй столбец содержит логические значения, значения True и False обрабатываются как числа, при этом False = 0 и True = 1.
Формула для столбца стандартного отклонения вычисляет стандартное отклонение совокупности. Таким образом, в знаменателе используется N, а не (N-1).
Если второй столбец содержит неупорядоченные данные (числовые или логические значения), модуль вычисляет среднее и стандартное отклонение Y для заданного значения X.

То есть для каждой строки в наборе данных, индексированном по i :

Mean(Y│X)i = Mean(Y│X = Xi)

StdDev(Y│X)i = StdDev(Y│X = Xi)
Если второй столбец содержит данные по категориям или значения, которые не являются ни числовыми, ни логическими, модуль рассчитывает условную вероятность Y для заданного значения X.
Все логические значения во втором столбце обрабатываются как числовые данные, при этом false = 0 и true = 1.
Если в дискретном столбце имеется такой класс, например, в котором строка с отсутствующими значениями присутствует во втором столбце, то сумма условных вероятностей внутри класса меньше единицы.

Ожидаемые входные данные

Имя	Тип	Описание
Dataset	Таблица данных	Входной набор данных

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Дискретные столбцы	Любой	Выбор столбцов		Выбор столбцов, содержащих дискретные значения
Столбцы замены	Любой	Выбор столбцов		Выбор столбцов, содержащих данные для использования вместо дискретных значений

Выходные данные

Имя	Тип	Описание
Дополняемый набор данных	Таблица данных	Набор данных с замененными данными
Функции преобразования	Интерфейс ITransform	Определение функции преобразования, которую можно добавить к другим наборам данных

Исключения

Исключение	Описание
Ошибка 0001	Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0003	Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0020	Исключение возникает, если количество столбцов в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0021	Исключение возникает, если количество строк в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0017	Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.
Ошибка 0026	Исключение возникает, если столбцы с одинаковыми именами не допускаются.
Ошибка 0022	Исключение возникает, если количество выбранных столбцов в наборе входных данных не равно ожидаемому числу.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Статистические функции

Last updated on 2019-05-06

X	Y	P(Y\|X)
Синий	0	`P(Y=0\|X=Blue) = 0.5`
Синий	1	`P(Y=1\|X=Blue) = 0.5`
Зеленый	0	`P(Y=0\|X=Green) = 2/3`
Зеленый	0	`P(Y=0\|X=Green) = 2/3`
Зеленый	1	`P(Y=1\|X=Green) = 1/3`
Красный	0	`P(Y=0\|X=Red) = .75`
Красный	0	`P(Y=0\|X=Red) = .75`
Красный	1	`P(Y=1\|X=Red) = .25`
Красный	0	`P(Y=0\|X=Red) = .75`

X	Y	P(Y\|X)
1	Да	`P(Y=true\|X=1) = 1/2`
1	False	`P(Y=false\|X=1) = 1/2`
2	True	`P(Y=true\|X=2) = 1/3`
2	False	`P(Y=false\|X=2) = 1/3`
2	NULL	`P(Y=null\|X=2) = null`