Методы дискретизации
Некоторые алгоритмы, используемые для создания моделей интеллектуального анализа данных в службах Microsoft SQL Server 2005 Analysis Services (SSAS), для правильной работы требуют наличия специальных типов содержимого. Например, некоторые алгоритмы, такие как упрощенный алгоритм Байеса (Microsoft) не в состоянии использовать непрерывные столбцы на входе, или не могут прогнозировать непрерывные значения. Кроме того, некоторые столбцы могут содержать так много значений, что алгоритм уже не в состоянии легко выявить нужные закономерности в данных, из которых создается модель.
В таких случаях можно дискретизировать данные в столбцах так, чтобы было можно использовать алгоритмы для выработки модели интеллектуального анализа данных. Дискретизация — это процесс размещения значений непрерывного набора данных в сегменты так, чтобы получился ряд дискретных допустимых состояний. С самими сегментами обращаются как с упорядоченными дискретными значениями. Можно дискретизировать как численные, так и строковые столбцы.
Существует несколько способов дискретизации данных. Каждый способ вычисляет число сегментов, которое нужно создать, автоматически, используя формулу в следующем примере кода:
Number of Buckets = sqrt(n)
В этом примере кода n — число различных значений данных в столбце. Если не нужно, чтобы службы Analysis Services вычисляли число сегментов, можно воспользоваться свойством DiscretizationBuckets, чтобы вручную указать их количество.
Следующая таблица описывает методы, которые можно использовать для дискретизации данных в службах Analysis Services.
Метод дискретизации | Описание |
---|---|
AUTOMATIC |
Службы Analysis Services определяют, какой метод дискретизации использовать. |
CLUSTERS |
Алгоритм разделяет данные на группы путем создания выборки обучающих данных, инициализации по ряду случайных точек и дальнейшего запуска несколько итераций алгоритма кластеризации (Microsoft) с помощью метода кластеризации с максимизацией ожидания (EM). Метод CLUSTERS полезен, так как он работает с любой кривой распределения. Однако он требует большего времени на обработку, чем другие методы дискретизации. Этот метод можно использовать только для числовых столбцов. |
EQUAL_AREAS |
Алгоритм делит данные на группы, содержащие равное число значений. Этот метод лучше всего использовать для кривых нормального распределения, но он не работает, если распределение содержит большое число значений, встречающихся в узкой группе непрерывных данных. Например, если половина элементов заказов, которые указаны в диаграмме вариантов, имеет нулевое значение цены, половина данных окажется в одной точке кривой. При таком распределении, этот метод разрушит данные в попытке установить равномерную дискретизацию по нескольким областям. Это вызовет неточное представление данных. |
Можно использовать метод EQUAL_AREAS для дискретизации строк.
Методы CLUSTERS и THRESHOLDS используют случайную выборку из 1 000 записей для дискретизации данных. Используйте метод EQUAL_AREAS, если не нужно, чтобы алгоритм отбирал данные.
См. также
Основные понятия
Типы содержимого (интеллектуальный анализ данных)
Алгоритмы интеллектуального анализа данных
Структуры интеллектуального анализа данных (службы Analysis Services)
Типы данных (интеллектуальный анализ данных)
Другие ресурсы
Типы содержимого (расширения интеллектуального анализа данных)
Столбцы структуры интеллектуального анализа данных