Связанные проекты для решений интеллектуального анализа данных

Статья
07/30/2013

Для решения интеллектуального анализа данных требуется, как минимум, проект интеллектуального анализа данных, определяющий источники данных, представления источников данных, структуры и модели интеллектуального анализа данных. Однако, если модели интеллектуального анализа данных используются для каждодневного принятия решений, важно, чтобы интеллектуальный анализ данных интегрировался с другой частью решения для прогнозирующего анализа, включая следующие процессы и компоненты.

Подготовка и выбор данных и переменных Включает очистку данных, управление метаданными и интеграцию нескольких источников данных, а также преобразование, слияние данных и загрузку в хранилище данных.
Отчеты о результатах анализа, представление прогнозов и проверка или отслеживание операций по интеллектуальному анализу данных
Использование многомерных или табличных моделей для исследования найденных данных.
Улучшение решения интеллектуального анализа данных для поддержки новых данных или изменения в инфраструктуре с учетом текущего анализа.

В этом разделе описаны другие функции SQL Server 2012, которые часто являются частью решения прогнозирующего анализа для поддержки процессов подготовки данных и интеллектуального анализа данных или для предоставления пользователям необходимых инструментов для анализа и действий.

Integration Services

Службы Reporting Services

Службы Data Quality Services

Полнотекстовый поиск

семантическое индексирование

Службы SQL Server Integration Services

Службы Службы Integration Services предоставляют компоненты и функции, необходимые для подготовки данных и обучения моделей в проекте интеллектуального анализа данных. Хотя многие задачи очистки и подготовки данных можно решить с помощью других инструментов, например скриптов, службы Службы Integration Services имеют множество преимуществ для интеллектуального анализа данных.

Представляют задачи как часть рабочего процесса, которую можно повторять, автоматизировать, разветвлять и расширять.
Существенно помогают в проверке и многочисленных способах сбора информации об ошибках и событиях регистрации в журнале.

Помимо журналов преобразования данных, изменения в данных можно отслеживать с помощью конвейера преобразования данных.

Можно также интегрировать рабочие потоки служб SSIS с компонентами, поддерживающими функции отслеживания измененных данных в SQL Server.
Использование служб Службы Integration Services для создания пакета, в котором модель интеллектуального анализа данных используется для интеллектуального распределения входящих данных по разным таблицам. Например, можно использовать прогнозирующий запрос, чтобы разбить новых заказчиков на целевые группы для рекламной кампании по почте.

Следующий список содержит основные компоненты служб Службы Integration Services, которые чаще всего используются для интеллектуального анализа данных.

Компоненты потока управления

Компоненты потока данных

В начало

службы SQL Server Reporting Services

Хотя службы Службы Reporting Services обычно не считаются важным компонентом решений интеллектуального анализа данных, они обеспечивают следующие возможности представления решений интеллектуального анализа данных.

Интеграция данных из нескольких источников в сложных отчетах. Создание запросов к содержимому моделей для анализа и отчетов с прогнозами и тенденциями для конечных пользователей.
Возможность создать отчет, который позволит пользователям создавать прямые запросы к существующей модели интеллектуального анализа данных.
Интеграция со службами Analysis Services для детализации и исследования измерений интеллектуального анализа данных и кубов интеллектуального анализа данных, созданных из моделей OLAP.
Возможности параметризации и форматирования, доступные в службах Службы Reporting Services.

Дополнительные сведения об использовании служб Reporting Services с запросами DMX в качестве источника данных можно найти по следующим ссылкам:

Получение данных из модели интеллектуального анализа данных (расширения интеллектуального анализа данных) (службы SSRS)

Пользовательский интерфейс конструктора DMX-запросов служб Analysis Services

Тип соединения служб Analysis Services для расширений интеллектуального анализа данных (службы SSRS)

Однако использовать DMX в качестве источника данных необязательно. Компоненты служб Службы Integration Services для интеллектуального анализа данных также позволяют сохранить прогнозирующий запрос в реляционной базе данных. Если существует рабочий поток для обновления моделей с помощью служб Службы Integration Services, сохранение прогнозов и других результатов запросов интеллектуального анализа данных в SQL Server позволяет использовать для получения отчетов Power View, а также другие инструменты, не поддерживающие DMX.

Дополнительные сведения об использовании служб Reporting Services в качестве уровня представления источников данных см. в разделе Интеграция служб Reporting Services в приложения.

В начало

Службы Data Quality Services

Службы Data Quality Services (DQS) впервые появились в SQL Server 2012. Так как проблемы с данными могут сделать интеллектуальный анализ данных невозможным, пользователи, которые выполняют повторный анализ или работают в больших организациях со сложными источниками данных, скорее всего, обнаружат, что хорошо спланированный проект данных с использованием служб DQS — это более надежное решение для интеллектуального анализа данных, чем нерегламентированная очистка данных с помощью Transact-SQL или других скриптов.

Для подготовки и обеспечения целостности данных в решении интеллектуального анализа данных можно использовать следующие функции служб DQS.

Автоматизированный процесс очистки данных, который анализирует данные и предлагает изменения.
Службы DQS могут сравнить данные источника со справочными данными на основе облака, обслуживание и качество которых гарантируется поставщиками услуг качества данных.

Службы DQS могут также проанализировать необработанные данные из источника данных и создать базу знаний из данных пользователя. Обработанные данные разбиваются на категории и выдаются пользователю для дальнейшей обработки. Процесс очистке интерактивен, т. е. диспетчер данных может одобрить, отвергнуть или изменить данные, предложенные автоматизированным процессом очистки данных.

Результатом процесса является база знаний, которую можно постоянно улучшать и использовать на нескольких этапах расширения данных.

Дополнительные сведения см. в разделе Очистка данных.
Автоматизированный процесс сопоставления данных, который анализирует данные и предлагает изменения.
Чтобы избежать дублирования данных, можно провести дополнительную очистку источника данных для выявления полных и приблизительных совпадений. Эти компоненты позволяют задать правила сравнения и пороги, на которых эти правила применять.

Обнаружив совпадение данных, можно удалить дубликаты, которые часто создают проблемы для интеллектуального анализа данных. Удаление дубликатов данных не происходит автоматически; диспетчер данных или специалист по ИТ должен проверить знания в базе знаний и предложенные изменения в данных.

После создания начального проекта служб DQS можно автоматизировать многие задачи с помощью компонентов служб Службы Integration Services.

Дополнительные сведения см. в разделе Сопоставление данных.

Во время операций очистки и сопоставления данных в проекте качества данных можно получать статистику и информацию о данных, обрабатываемых службами DQS, в реальном времени. Профили данных помогают оценить, насколько процессы очистки и сопоставления данных помогли улучшить качество данных, и понять, какие изменения были сделаны. Дополнительные сведения о профилях данных и уведомлениях см. в разделе Профилирование данных и уведомления в DQS.
База знаний, представляющая три типа знаний: готовые встроенные знания, знания, созданные сервером служб DQS, и знания, созданные пользователем.
Когда база знаний создана, можно использовать ее в режиме итераций для очистки и проверки других данных.

Можно импортировать в базу знаний новые данные из нескольких источников — как чистые данные от авторизованных поставщиков, так и необработанные, которые сравниваются с данными, уже существующими в базе данных.

Подробные сведения о процессе очистки данных в проекте качества данных см. в разделе «Очистка данных (DQS)».

Знания из базы знаний можно применять и к другим источникам для очистки данных в других процессах. Такая очистка данных может выявить ошибки в данных, введенных пользователем, повреждение данных при передаче или хранении или несовпадение определений в словаре данных.

Дополнительные сведения см. в разделе Базы знаний и домены DQS.

В начало

Полнотекстовый поиск

Полнотекстовый поиск в SQL Server позволяет приложениям и пользователям выполнять полнотекстовые запросы к символьным данным в таблицах SQL Server. Если полнотекстовый поиск включен, можно выполнять операции поиска в текстовых данных с учетом правил о форме слов или фраз для конкретного языка. Можно задать такие условия поиска, как расстояние между несколькими терминами, а также использовать функции для ограничения возвращаемых результатов с учетом их правдоподобия.

Так как функция полнотекстового поиска предоставляется ядром SQL Server, можно создавать параметризированные запросы, пользовательские наборы данных или векторы терминов с помощью функций полнотекстового поиска в источнике текстовых данных и использовать эти источники в интеллектуальном анализе данных.

Дополнительные сведения о том, как полнотекстовые запросы взаимодействуют с полнотекстовым индексом, см. в разделе Запрос с полнотекстовым поиском.

Функции полнотекстового поиска SQL Server позволяют использовать языковой анализ, содержащийся в средствах разбиения по словам и парадигматических модулях, которые предоставляются для всех языков SQL Server. Используя средства разбиения по словам и парадигматические модули, можно быть уверенным в том, что слова в каждом языке разделяются соответствующим знаком и не пропускаются синонимы, появившиеся в результате диакритических и орфографических различий (например, нескольких форматов чисел в японском языке).

Помимо лингвистического анализа, определяющего границы слов, парадигматические модули для каждого языка могут свести варианты слова к одному термину с помощью правил спряжения глаголов и орфографических вариантов в языке. Правила лингвистического анализа для каждого языка свои и определяются на основе результатов глубоких исследований реальных текстов.

Дополнительные сведения см. в разделе Настройка и управление средством разбиения на слова и парадигматические модули для поиска.

Версия слова, которая сохраняется после полнотекстового индексирования — это токен в сжатой форме. Последующие запросы к полнотекстовому индексу создают многочисленные грамматические формы слова на основе правил конкретного языка. Таким образом обнаруживаются все возможные совпадения. Например, в индексе может храниться маркер «бег», но обработчик запросов ищет и такие слова, как «бегун» и «бежать», потому что это обычные морфологические вариации корневого слова «бег».

Можно также создать и построить пользовательский тезаурус для хранения синонимов, получения лучших результатов поиска и разбивки терминов на категории. Подготовив тезаурус, ориентированный на пользовательские полнотекстовые данные, можно эффективно расширить область полнотекстовых запросов к этим данным. Дополнительные сведения см. в разделе Настройка и управление файлами тезауруса для полнотекстового поиска.

Условия использования полнотекстового поиска следующие.

Администратор базы данных должен создать полнотекстовый индекс для таблицы.
На одну таблицу может приходиться только один полнотекстовый индекс.
Каждый индексируемый столбец должен иметь уникальный ключ.
Полнотекстовое индексирование возможно только для столбцов со следующими типами данных. char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary и varbinary(max). Если столбец имеет тип данных varbinary, varbinary(max), image или xml, необходимо указать в отдельном столбце типа расширение файла документа, который может индексироваться (.doc, .pdf, .xls и т. д.).

В начало

семантическое индексирование

Семантический поиск основан на существующих функциях полнотекстового поиска в SQL Server, но использует дополнительные возможности и статистику для таких сценариев, как автоматическое извлечение слова и обнаружение соответствующих документов. Например, с помощью семантического поиска можно создать базовую классификацию терминов для организации или классифицировать набор документов. Или можно использовать сочетание извлеченных терминов и показателей сходства документов в моделях кластеризации или дереве принятия решений.

Когда семантический поиск успешно включен и столбцы данных проиндексированы, можно использовать встроенные функции с семантическим индексированием, чтобы делать следующее.

Возвращать ключевые фразы из одного слова с их рейтингом.
Возвращать документы, содержащие заданную ключевую фразу
Возвращать показатели сходства и термины, по которым они были вычислены.

Дополнительные сведения см. в разделах Поиск ключевых фраз в документах с использованием семантического поиска и Поиск похожих и связанных документов с использованием семантического поиска.

Дополнительные сведения об объектах базы данных, поддерживающих семантическое индексирование, см. в разделе Включение семантического поиска на таблицы и столбцы.

Условия использования семантического поиска следующие.

Полнотекстовый поиск также должен быть включен.
При установке компонентов семантического поиска создается специальная системная база данных, которую невозможно переименовать, изменить или заменить.
Документы, индексируемые с помощью этой службы, должны храниться в SQL Server в любом из объектов базы данных, где поддерживается полнотекстовое индексирования, включая таблицы и индексированные представления.
Не все полнотекстовые языки поддерживают семантическое индексирование. Полный список поддерживаемых языков см. в разделе sys.fulltext_semantic_languages (Transact-SQL).

В начало

См. также

Основные понятия

Решения многомерной модели (службы SSAS)

Решения табличных моделей (табличные службы SSAS)

Поделиться через

Связанные проекты для решений интеллектуального анализа данных

Службы SQL Server Integration Services

службы SQL Server Reporting Services

Службы Data Quality Services

Полнотекстовый поиск

семантическое индексирование

См. также

Основные понятия

Дополнительные ресурсы