Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Алгоритм логистической регрессии Майкрософт — это вариант алгоритма нейронной сети Майкрософт, где параметр HIDDEN_NODE_RATIO имеет значение 0. Этот параметр создаст модель нейронной сети, которая не содержит скрытый слой, и поэтому эквивалентна логистической регрессии.
Реализация алгоритма логистической регрессии Майкрософт
Предположим, что прогнозируемый столбец содержит только два состояния, но вы по-прежнему хотите выполнить анализ регрессии, относящийся к входным столбцам с вероятностью, что прогнозируемый столбец будет содержать определенное состояние. На следующей схеме показаны результаты, которые будут получены при назначении 1 и 0 состояниям прогнозируемого столбца, вычислении вероятности того, что столбец будет содержать определенное состояние, и выполнять линейную регрессию для входной переменной.
Ось x содержит значения входного столбца. Ось Y содержит вероятности того, что прогнозируемый столбец будет одним состоянием или другим. Проблема в этом заключается в том, что линейная регрессия не ограничивает столбец в диапазоне от 0 до 1, даже если они являются максимальными и минимальными значениями столбца. Способ решения этой проблемы заключается в том, чтобы выполнить логистическую регрессию. Вместо создания прямой линии анализ логистической регрессии создает фигурную кривую "S", содержащую максимальные и минимальные ограничения. Например, на следующей схеме показаны результаты, которые будут достигнуты при выполнении логистической регрессии с теми же данными, что и в предыдущем примере.
Обратите внимание, что кривая никогда не выходит выше 1 или ниже 0. Вы можете использовать логистическую регрессию, чтобы описать, какие входные столбцы важны при определении состояния прогнозируемого столбца.
Выбор признаков
Выбор компонентов автоматически используется всеми алгоритмами интеллектуального анализа данных служб Analysis Services для улучшения анализа и уменьшения нагрузки на обработку. Метод, используемый для выбора признаков в модели логистической регрессии, зависит от типа данных атрибута. Так как логистическая регрессия основана на алгоритме нейронной сети Майкрософт, он использует подмножество методов выбора признаков, применяемых к нейронным сетям. Дополнительные сведения см. в разделе "Выбор компонентов" (интеллектуальный анализ данных).
Оценка входных данных
Оценка в контексте модели нейронной сети или логистической регрессии означает процесс преобразования значений, присутствующих в данных, в набор значений, использующих тот же масштаб и поэтому можно сравнить друг с другом. Например, предположим, что входные данные для дохода варьируются от 0 до 100 000, а входные данные для [числа детей] — от 0 до 5. Этот процесс преобразования позволяет оценить или сравнить важность каждого входного значения независимо от разницы значений.
Для каждого состояния, отображаемого в обучаемом наборе, модель создает входные данные. Для дискретных или дискретизированных входных данных создается дополнительный вход для представления отсутствующего состояния, если отсутствующее состояние отображается по крайней мере один раз в наборе обучения. Для непрерывных входных данных создаются не более двух входных узлов: один для отсутствующих значений, если они присутствуют в обучающих данных, а также один вход для всех существующих или непустых значений. Каждое входное значение масштабируется до числового формата с помощью метода нормализации z-score (x - μ)/StdDev.
Во время нормализации z-оценок среднее значение (μ) и стандартное отклонение вычисляются по всему обучающему набору.
Непрерывные значения
Значение присутствует: (X - μ)/σ // X является фактическим значением, кодируемым).
Значение отсутствует: - μ/σ // отрицательный мю, разделенный сигмой)
Дискретные значения
μ = p - (предварительная вероятность состояния)
StdDev = sqrt(p(1-p))
Значение присутствует: (1 – μ)/σ// (Одна минус μ) разделить на сигму.
Значение отсутствует: (- μ)/σ// отрицательный мю, разделенный сигмой)
Общие сведения о коэффициентах логистической регрессии
Существуют различные методы статистической литературы по выполнению логистической регрессии, но важная часть всех методов оценивает соответствие модели. Были предложены различные статистические показатели хорошего соответствия, среди которых коэффициенты коэффициентов и ковариатные шаблоны. Обсуждение того, как измерять соответствие модели, выходит за рамки этой статьи; однако вы можете получить значение коэффициентов в модели и использовать их для разработки собственных мер соответствия.
Замечание
Коэффициенты, созданные в рамках модели логистической регрессии, не представляют собой коэффициенты шансов и не должны интерпретироваться как таковые.
Коэффициенты для каждого узла в графе модели представляют взвешированную сумму входных данных для этого узла. В модели логистической регрессии скрытый слой пуст; Таким образом, существует только один набор коэффициентов, который хранится в выходных узлах. Значения коэффициентов можно получить с помощью следующего запроса:
SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23
Для каждого выходного значения этот запрос возвращает коэффициенты и идентификатор, указывающий обратно на связанный входной узел. Он также возвращает строку, содержащую значение выходных данных и перехват. Каждый входной X имеет собственный коэффициент (Ci), но вложенная таблица также содержит "свободный" коэффициент (Co), вычисляемый в соответствии со следующей формулой:
F(X) = X1*C1 + X2*C2 + ... +Xn*Cn + X0
Активация: exp(F(X)) / (1 + exp(F(X)))
Дополнительные сведения см. в примерах запросов модели логистической регрессии.
Настройка алгоритма логистической регрессии
Алгоритм логистической регрессии Майкрософт поддерживает несколько параметров, которые влияют на поведение, производительность и точность модели анализа данных. Вы также можете изменить поведение модели, установив флаги моделирования для столбцов, используемых в качестве входных данных.
Настройка параметров алгоритма
В следующей таблице описаны параметры, которые можно использовать с алгоритмом логистической регрессии Майкрософт.
HOLDOUT_PERCENTAGE Указывает процент случаев в обучающих данных, используемых для вычисления ошибки отложенной выборки. HOLDOUT_PERCENTAGE используется как часть критериев остановки при обучении модели добычи данных.
Значение по умолчанию — 30.
HOLDOUT_SEED Указывает число, используемое для инициализации псевдослучайного генератора при случайном выборе исключаемых данных. Если для HOLDOUT_SEED задано значение 0, алгоритм создает значение семени на основе имени модели анализа данных, чтобы гарантировать, что содержимое модели остается неизменным во время повторной обработки.
Значение по умолчанию — 0.
MAXIMUM_INPUT_ATTRIBUTES определяет количество входных атрибутов, которые алгоритм может обрабатывать перед вызовом выбора компонентов. Задайте для этого значения значение 0, чтобы отключить выбор компонентов.
Значение по умолчанию — 255.
MAXIMUM_OUTPUT_ATTRIBUTES определяет количество выходных атрибутов, которые алгоритм может обрабатывать перед вызовом выбора компонентов. Задайте для этого значения значение 0, чтобы отключить выбор компонентов.
Значение по умолчанию — 255.
MAXIMUM_STATES Указывает максимальное количество состояний атрибута, поддерживаемых алгоритмом. Если число состояний атрибута больше максимального числа состояний, алгоритм использует наиболее популярные состояния атрибута и игнорирует остальные состояния.
Значение по умолчанию равно 100.
SAMPLE_SIZE Указывает количество вариантов, используемых для обучения модели. Поставщик алгоритмов использует либо это число, либо процент общего числа случаев, которые не включены в процент удержания, как указано параметром HOLDOUT_PERCENTAGE, в зависимости от того, какое значение меньше.
Другими словами, если HOLDOUT_PERCENTAGE имеет значение 30, алгоритм будет использовать значение этого параметра или значение, равное 70 процентам общего числа случаев, в зависимости от того, что меньше.
Значение по умолчанию — 10000.
Флаги моделирования
Следующие флаги моделирования поддерживаются для использования с алгоритмом логистической регрессии Майкрософт.
NOT NULL указывает, что столбец не может содержать значение NULL. Ошибка возникнет, если службы Analysis Services столкнутся с null'ом во время обучения модели.
Применяется к столбцам структуры данных.
MODEL_EXISTENCE_ONLY Означает, что столбец будет рассматриваться как наличие двух возможных состояний: Missing и Existing. Значение NULL — это отсутствующее значение.
Применяется к столбцу модели данных для майнинга.
Требования
Модель логистической регрессии должна содержать ключевой столбец, входные столбцы и по крайней мере один прогнозируемый столбец.
Входные и предсказуемые столбцы
Алгоритм логистической регрессии Майкрософт поддерживает определенные типы содержимого входных столбцов, прогнозируемые типы контента столбцов и флаги моделирования, перечисленные в следующей таблице. Для получения дополнительных сведений о значении типов контента при их использовании в модели интеллектуального анализа данных см. раздел "Типы контента (интеллектуальный анализ данных)".
| колонна | Типы содержимого |
|---|---|
| Входной атрибут | Непрерывный, дискретный, дискретизированный, ключ, таблица |
| Прогнозируемый атрибут | Непрерывный, дискретный, дискретизированный |
См. также
Алгоритм логистической регрессии MicrosoftПримеры запросов модели линейной регрессииСодержимое модели майнинга данных для моделей логистической регрессии (службы Analysis Services — Майнинг данных)Алгоритм нейронной сети Microsoft