Создание реляционной структуры для анализа данных

Большинство моделей интеллектуального анализа данных основаны на реляционных источниках данных. Преимущества создания реляционной модели интеллектуального анализа данных — это то, что можно собрать нерегламентированные данные и обучить и обновить модель без сложности создания куба.

Реляционная структура интеллектуального анализа данных может извлекать данные из разных источников. Необработанные данные можно хранить в таблицах, файлах или реляционных системах баз данных, если данные можно определить как часть представления источника данных. Например, вы должны использовать реляционную структуру интеллектуального анализа данных, если данные находятся в Excel, хранилище данных SQL Server, базе данных отчетов SQL Server или внешних источниках, к которым осуществляется доступ через поставщики OLE DB или ODBC.

В этом разделе представлен обзор, как использовать Мастер интеллектуального анализа данных для создания реляционной структуры интеллектуального анализа данных.

Требования

Процесс создания реляционной структуры для интеллектуального анализа данных

Выбор источников данных

Указание типа контента и типа данных

Почему и как создать набор данных удержаний

Почему и как включить переход к деталям

Требования

Сначала необходимо иметь существующий источник данных. Конструктор источников данных можно использовать для настройки источника данных, если он еще не существует. Дополнительные сведения см. в разделе «Создание источника данных» (многомерные модели SSAS).

Затем используйте мастер представления источников данных для сборки необходимых данных в одно представление источника данных. Дополнительные сведения о том, как можно выбирать, преобразовывать, фильтровать или управлять данными с помощью представлений источников данных, см. в статьях "Представления источников данных" в многомерных моделях.

Обзор процесса

Запустите мастер интеллектуального анализа данных, щелкнув правой кнопкой мыши узел структур интеллектуального анализа данных в обозревателе решений и выбрав "Добавить новую структуру интеллектуального анализа данных". Мастер проводит вас через следующие шаги для создания структуры новой реляционной модели для интеллектуального анализа данных:

Выберите метод определения: здесь вы выбираете тип источника данных и выберите из реляционной базы данных или хранилища данных.
Создайте структуру интеллектуального анализа данных: определите, будете ли вы создавать только структуру или структуру с моделью интеллектуального анализа данных.

Вы также выбираете подходящий алгоритм для исходной модели. Для получения рекомендаций о том, какой алгоритм лучше подходит для определенных задач, см. раздел "Алгоритмы интеллектуального анализа данных" (службы Analysis Services — интеллектуальный анализ данных).
Выберите представление источника данных: выберите представление источников данных для обучения модели. Представление источника данных также может содержать данные, используемые для тестирования или несвязанных данных. Вы можете выбрать, какие данные фактически используются в структуре и модели. Вы также можете применить фильтры к данным позже.
Укажите типы таблиц: выберите таблицу, содержащую варианты, используемые для анализа. Для некоторых наборов данных, особенно для создания моделей корзины рынка, можно также включить связанную таблицу для использования в качестве вложенной таблицы.

Для каждой таблицы необходимо указать ключ, чтобы алгоритм знал, как определить уникальную запись и связанные записи, если вы добавили вложенную таблицу.

Дополнительные сведения см. в разделе «Столбцы структуры анализа данных».
Укажите данные обучения: на этой странице вы выбираете таблицу данных, которая является таблицей, содержащей наиболее важные данные для анализа.

Для некоторых наборов данных, особенно тех, которые используются для создания моделей корзин рынка, можно также включить связанную таблицу. Значения в вложенной таблице будут обрабатываться в виде нескольких значений, связанных с одной строкой (или регистром) в главной таблице.
Укажите содержимое столбцов и типы данных. Для каждого столбца, используемого в структуре, необходимо выбрать как тип данных , так и тип контента.

Мастер автоматически обнаружит возможные типы данных, но вам не нужно использовать тип данных, рекомендуемый мастером. Например, даже если данные содержат числа, они могут быть репрезентативными категориальными данными. Столбцы, которые вы указываете в качестве ключей, автоматически получают правильный тип данных для заданного типа модели. Дополнительные сведения см. в разделах Столбцы модели интеллектуального анализа данных и Типы данных (интеллектуальный анализ данных).

Тип контента, который вы выбираете для каждого столбца, используемого в модели, указывает алгоритму обработки данных.

Например, можно решить дискретизировать числа, а не использовать непрерывные значения. Кроме того, можно попросить алгоритм автоматически обнаруживать лучший тип контента для столбца. Дополнительные сведения см. в разделе "Типы контента" (интеллектуальный анализ данных).
Создание тестового набора. На этой странице можно указать мастеру, сколько данных следует отложить для использования в тестировании модели. Если ваши данные будут поддерживать несколько моделей, рекомендуется создать отложенный набор данных, чтобы все модели можно было протестировать на одном и том же наборе данных.

Дополнительные сведения см. в разделе "Тестирование и проверка" (интеллектуальный анализ данных).
Завершение работы мастера. На этой странице вы дайте имя новой структуре интеллектуального анализа данных и связанной модели интеллектуального анализа данных, а также сохраните структуру и модель.

Также можно задать некоторые важные параметры в зависимости от типа модели. Например, можно включить возможность глубокого анализа структуры.

На этом этапе структура и модель данных являются просто метаданными; их необходимо обработать, чтобы получить результаты.

Выбор реляционных данных

Реляционные структуры интеллектуального анализа данных могут основываться на любых данных, доступных через источник данных OLE DB. Если исходные данные содержатся в нескольких таблицах, вы используете представление источника данных для сборки таблиц и столбцов, необходимых в одном месте.

Если таблицы включают связи типа "один ко многим", например, у вас есть несколько записей покупки для каждого клиента, которых требуется проанализировать, можно добавить обе таблицы, а затем использовать одну таблицу в качестве основной, связывая данные со стороны 'многие' в качестве вложенной таблицы.

Данные в структуре анализа данных происходят из информации, содержащейся в существующем представлении источника данных. Вы можете изменять данные по мере необходимости в представлении источника данных, добавляя связи или производные столбцы, которые могут не присутствовать в базовых реляционных данных. Кроме того, в представлении источника данных можно создавать именованные вычисления или агрегаты. Эти функции очень удобны, если у вас нет контроля над расположением данных в источнике данных или если вы хотите поэкспериментировать с различными агрегатами данных для моделей интеллектуального анализа данных.

Вам не нужно использовать все доступные данные; вы можете выбрать, какие столбцы включить в структуру анализа данных. Все модели, основанные на этой структуре, могут использовать эти столбцы или пометить определенные столбцы как Ignore для конкретной модели. Вы можете включить пользователей модели интеллектуального анализа данных для детализации результатов модели интеллектуального анализа данных, чтобы просмотреть дополнительные столбцы структуры интеллектуального анализа данных, которые не были включены в саму модель интеллектуального анализа данных.

Указание типа контента и типа данных

Тип данных почти такой же, как и типы данных, указанные в SQL Server или других интерфейсах приложений: даты и время, количество различных размеров, логические значения, текст и другие дискретные данные.

Однако типы контента важны для интеллектуального анализа данных и влияют на результат анализа. Тип контента сообщает алгоритму, что он должен делать с данными: следует ли обрабатывать числа в непрерывном масштабе или разделить на бины? Сколько потенциальных значений есть? Отличается ли каждое значение? Если значение является ключом, какой тип ключа — указывает значение даты и времени, последовательность или другой тип ключа?

Обратите внимание, что выбор типа данных может ограничить выбор типов контента. Например, нельзя дискретизировать значения, которые не являются числовыми. Если вы не видите нужный тип контента, нажмите кнопку "Назад ", чтобы вернуться на страницу типа данных и попробовать другой тип данных.

Вам не нужно слишком беспокоиться о том, что ошибётесь с определением типа контента. Создать новую модель и изменить тип контента в модели очень легко, если новый тип контента поддерживается типом данных в структуре анализа данных. Кроме того, очень распространено создание нескольких моделей с использованием различных типов контента либо в качестве эксперимента, либо для удовлетворения требований другого алгоритма.

Например, если данные содержат столбец дохода, можно создать две разные модели при использовании алгоритма дерева принятия решений Майкрософт и настроить столбец как непрерывные числа или дискретные диапазоны. Тем не менее, если вы добавили модель с помощью алгоритма Microsoft Naïve Bayes, вы будете вынуждены изменить столбец только на дискретизированные значения, так как этот алгоритм не поддерживает непрерывные числа.

Почему и как разделить данные на наборы обучения и тестирования

Ближе к концу мастера необходимо решить, следует ли разделить данные на наборы обучения и тестирования. Возможность подготовки случайно выборочной части данных для тестирования очень удобна, так как она гарантирует, что согласованный набор тестовых данных доступен для использования со всеми моделями интеллектуального анализа данных, связанными с новой структурой интеллектуального анализа данных.

Предупреждение

Обратите внимание, что этот параметр недоступен для всех типов моделей. Например, если вы создаете модель прогнозирования, вы не сможете использовать отложенную выборку, поскольку алгоритм временных рядов требует отсутствия пробелов в данных. Список типов моделей, которые поддерживают наборы данных для проверки, см. в разделе «Наборы данных для обучения и тестирования».

Чтобы создать этот набор данных удержания, укажите процент данных, которые необходимо использовать для тестирования. Все оставшиеся данные будут использоваться для обучения. При необходимости можно задать максимальное количество вариантов, используемых для тестирования, или задать начальное значение, используемое при запуске процесса случайного выбора.

Определение тестового набора для контрольной проверки сохраняется со структурой анализа данных, поэтому при создании новой модели на основе структуры, набор данных для тестирования будет доступен для оценки точности модели. При удалении кэша структуры интеллектуального анализа данных сведения о том, какие случаи использовались для обучения и которые были использованы для тестирования, также будут удалены.

Почему и как включить детализацию

Почти в самом конце мастера у вас есть возможность включить детализацию. Это легко пропустить этот вариант, но это важно. Детализация позволяет просматривать исходные данные в структуре добычи данных через запросы к модели.

Почему это полезно? Предположим, вы просматриваете результаты модели кластеризации и хотите видеть клиентов, которые были помещены в конкретный кластер. При использовании сквозного просмотра можно увидеть такие детали, как контактные данные.

Предупреждение

Чтобы использовать детализацию, необходимо включить ее при создании структуры интеллектуального анализа данных. Вы можете включить доступ к углубленному анализу моделей позже, задав свойство для модели, однако структуры майнинга требуют установки этого параметра с самого начала. Дополнительные сведения см. в разделе «Запросы детализации» (интеллектуальный анализ данных).

См. также

Конструктор интеллектуального анализа данных
Мастер интеллектуального анализа данных (Analysis Services — интеллектуальный анализ данных)
Свойства модели интеллектуального анализа данных
Свойства структуры поверхностного анализа данных и её столбцов
Задачи структуры майнинга и рекомендации

Last updated on 2017-06-13

Поделиться через

Создание реляционной структуры для анализа данных

Требования

Обзор процесса

Выбор реляционных данных

Указание типа контента и типа данных

Почему и как разделить данные на наборы обучения и тестирования

Почему и как включить детализацию

См. также

Дополнительные ресурсы