Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Структура интеллектуального анализа данных определяет данные, на основе которых строятся модели интеллектуального анализа данных: она задает представление источника данных, количество и тип столбцов, а также необязательное секционирование на обучающий и проверочный наборы. Одна структура интеллектуального анализа может поддерживать несколько моделей интеллектуального анализа данных, совместно использующих один домен. На следующей схеме показана связь структуры интеллектуального анализа данных с источником данных и моделями интеллектуального анализа данных, основанных на этой структуре.
Структура интеллектуального анализа данных на схеме основана на источнике данных, который содержит несколько таблиц или представлений, соединенных по полю CustomerID. Одна таблица содержит сведения о клиентах, такие как географический регион, возраст, доход и пол, а связанная вложенная таблица содержит несколько строк дополнительных сведений о каждом клиенте, например список товаров, приобретенных клиентом. На схеме показано, что на одной структуре интеллектуального анализа данных можно построить несколько моделей, и эти модели могут использовать различные столбцы из структуры.
Модель 1 использует столбцы CustomerID, Income, Age, Region и фильтрует данные по столбцу Region.
Модель 2 использует столбцы CustomerID, Income, Age, Region и фильтрует данные по столбцу Age.
Модель 3 использует столбцы CustomerID, Age, Gender и вложенную таблицу, не применяя фильтры.
Поскольку модели используют разные столбцы в качестве входных данных и две модели дополнительно ограничивают используемые данные, применяя фильтр, эти модели могут давать совершенно различные результаты несмотря на то, что они основаны на одних и тех же данных. Обратите внимание — столбец CustomerID необходим для всех моделей, поскольку он является единственным из доступных столбцов, который может использоваться в качестве ключа варианта.
В этом разделе описывается базовая архитектура структур интеллектуального анализа данных. Дополнительные сведения о создании, управлении, изменении и просмотре структур интеллектуального анализа данных см. в разделе Управление структурами и моделями интеллектуального анализа данных.
Определение структур интеллектуального анализа данных
Настройка структуры интеллектуального анализа данных включает следующие шаги.
Определение источника данных.
Выбор столбцов структуры и определение ключа.
Разделение исходных данных на обучающий и проверочный наборы.
Обработка структуры.
Источники данных для структур интеллектуального анализа данных
При определении структуры интеллектуального анализа данных используются столбцы, доступные в существующем представлении источника данных. Представление источника данных позволяет объединять несколько источников данных и использовать их в создаваемой структуре или модели интеллектуального анализа данных как один источник. Исходные источники данных не видимы для клиентских приложений.
Дополнительные сведения о представлениях источников данных см. в разделе Представления источников данных (службы Analysis Services — многомерные данные).
Если несколько моделей создаются из единой структуры интеллектуального анализа данных, в этих моделях могут использоваться разные столбцы структуры; кроме того, эти столбцы могут использоваться разными методами. Например, можно создать единую структуру, а затем построить из нее отдельное дерево решений и модели кластеризации, каждая из которых будет использовать разные столбцы и прогнозировать разные атрибуты.
Структура интеллектуального анализа данных сохраняет только привязки к исходным данным. Также можно создать структуру интеллектуального анализа данных, не привязывая ее к определенному источнику данных, если использовать инструкцию DMX, описанную в разделе CREATE MINING STRUCTURE (расширения интеллектуального анализа данных).
Столбцы структуры интеллектуального анализа данных
Строительными блоками структуры интеллектуального анализа являются столбцы, которые описывают данные, содержащиеся в источнике данных. Эти столбцы содержат такие сведения, как тип данных, тип содержимого и способы распределения данных. Структура интеллектуального анализа не содержит данных о способах использования столбцов в конкретной модели интеллектуального анализа или данных о типе алгоритма, используемого для построения модели. Эти данные определяются в самой модели интеллектуального анализа.
Структура интеллектуального анализа также может содержать определенные вложенные таблицы. Вложенная таблица представляет связь «один ко многим» между объектом варианта и связанными с ним атрибутами. Например, если сведения, описывающие клиента, находятся в одной таблице, а покупки этого клиента находятся в другой таблице, то можно использовать вложенные таблицы для комбинирования сведений в единый вариант. Идентификатор клиента представляет собой объект, а покупки — связанные с ним атрибуты. Дополнительные сведения о необходимости использования вложенных таблиц см. в разделе Вложенные таблицы (службы Analysis Services — интеллектуальный анализ данных).
Чтобы создать модель интеллектуального анализа данных в среде Business Intelligence Development Studio, вначале нужно создать структуру интеллектуального анализа данных. Мастер интеллектуального анализа данных помогает выполнить этапы процесса по созданию структуры интеллектуального анализа данных, выбора данных и добавления модели интеллектуального анализа данных.
Если модель интеллектуального анализа данных создается с помощью расширений интеллектуального анализа данных, можно задать модель и столбцы в модели, и расширение интеллектуального анализа данных автоматически создаст необходимую структуру интеллектуального анализа данных. Дополнительные сведения см. в разделе CREATE MINING MODEL (расширения интеллектуального анализа данных).
Дополнительные сведения см. в разделе Столбцы структуры интеллектуального анализа данных.
Обучающие и проверочные данные
При определении данных для структуры интеллектуального анализа данных можно также указать, что некоторые данные будут использованы для обучения, а некоторые для проверки. Следовательно, нет необходимости в разделении данных перед созданием структуры интеллектуального анализа данных. Можно указать, что определенный процент данных будет выделен для проверки, а остальные будут использованы для обучения, либо можно указать несколько вариантов, которые будут использоваться в качестве набора проверочных данных. Сведения о секциях кэшируются в структуре интеллектуального анализа данных, следовательно, один и тот же проверочный набор может быть использован всеми моделями, основанными на этой структуре.
Дополнительные сведения см. в разделе Секционирование данных на обучающий и проверочный наборы данных (службы Analysis Services — интеллектуальный анализ данных).
Разрешение детализации
Столбцы в структуру интеллектуального анализа данных можно добавлять, даже если не планируется их использование в определенной модели интеллектуального анализа данных. Если для столбца не будет указано применение, он не будет учитываться при анализе и прогнозе. Однако, его все равно можно использовать в запросах, включив детализацию для модели интеллектуального анализа данных. Например, если имеются необходимые разрешения, можно выполнить детализацию от определенного результата в модели интеллектуального анализа данных, чтобы получить подробные сведения о вариантах в узле и даже получить доступ к столбцам структуры, которые не были использованы в модели.
Дополнительные сведения см. в разделе Использование детализации в моделях и структурах интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Обработка структур интеллектуального анализа данных
Структура интеллектуального анализа данных до обработки представляет собой просто контейнер метаданных. Во время обработки структуры интеллектуального анализа данных службы Analysis Services создают кэш, где хранится статистика о данных, сведения о дискретизации непрерывных атрибутов и другие данные, которые в дальнейшем используются моделями интеллектуального анализа данных. Сама модель интеллектуального анализа данных не сохраняет данные, а только ссылается на данные, расположенные в кэше. Поэтому во время обработки модели интеллектуального анализа данных должен быть доступен кэш структуры. Если он недоступен, необходимо повторно обработать структуру перед построением модели.
Если не нужно кэшировать данные, можно изменить значение свойства CacheMode в структуре интеллектуального анализа данных на ClearAfterProcessing. В результате кэш будет очищаться после обработки моделей. Если задать для свойства CacheMode значение ClearAfterProcessing, будет отключена детализация из модели интеллектуального анализа данных.
Если данные в кэше остаются доступны, не нужно повторно обрабатывать структуру интеллектуального анализа данных во время добавления к ней новой модели интеллектуального анализа данных. Можно обрабатывать только модель. Дополнительные сведения см. в разделе Обработка объектов интеллектуального анализа данных.
Просмотр структур интеллектуального анализа данных
Для обзора данных в структуре интеллектуального анализа данных нельзя использовать средства просмотра. Однако в среде Business Intelligence Development Studio можно использовать вкладку Структура интеллектуального анализа данных конструктора интеллектуального анализа данных для просмотра столбцов структуры и их определений. Дополнительные сведения см. в разделе Конструктор интеллектуального анализа данных.
Если необходимо просмотреть данные из структуры интеллектуального анализа данных, то можно создать запросы с помощью расширений интеллектуального анализа данных. Например, инструкция SELECT * FROM <structure>.CASES возвращает все данные в структуре интеллектуального анализа данных. Чтобы получить эти данные, структура интеллектуального анализа данных должна быть обработана, а результаты обработки должны находиться в кэше.
Инструкция SELECT * FROM <model>.CASES возвращает те же столбцы, но только для вариантов в этой определенной модели. Дополнительные сведения см. в разделах SELECT FROM <структура>.CASES и SELECT FROM <модель>.CASES (расширения интеллектуального анализа данных).
Совместное использование моделей интеллектуального анализа данных и структур интеллектуального анализа данных.
Модель интеллектуального анализа данных применяет алгоритм интеллектуального анализа к данным, представленным структурой интеллектуального анализа данных. Модель интеллектуального анализа данных является объектом, принадлежащим некоторой структуре интеллектуального анализа данных, и наследует все значения свойств, определенных этой структурой. Модель может использовать все столбцы, содержащиеся в структуре интеллектуального анализа данных, или подмножества этих столбцов. В структуру можно добавить несколько копий столбца структуры. Также можно добавить в модель несколько копий столбцов структуры, а затем присвоить им разные имена или псевдонимы. Дополнительные сведения о присвоении псевдонимов столбцам структуры см. в разделах Как создать псевдоним для столбца модели и Настройка свойств в модели интеллектуального анализа данных.
Дополнительные сведения об архитектуре моделей интеллектуального анализа данных см. в разделе Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).