数据挖掘解决方案的相关项目

数据挖掘解决方案中至少要包含数据挖掘项目,该项目定义了数据源、数据源视图、挖掘结构和挖掘模型。 但是,在使用数据挖掘模型做出日常决策时,将数据挖掘与预测分析解决方案的其他部分集成非常重要,其中可包含以下过程和组成部分:

  • 准备和选择数据和变量。 这一过程包括数据清除、元数据管理和多个数据源的集成,以及数据的转换、合并和数据到数据仓库的上载。

  • 报告分析、呈现预测和审核/跟踪数据挖掘活动。

  • 使用多维模型或表格模型浏览发现的内容。

  • 优化数据挖掘解决方案以支持新数据或根据当前分析在支持基础结构中进行的更改。

本主题介绍了 SQL Server 2012 的其他功能,这些功能通常是预测分析解决方案的一部分,用于支持数据准备和数据挖掘过程,或用于通过提供分析和操作工具为用户提供支持。

Integration Services

Reporting Services

Data Quality Service

全文搜索

语义索引

SQL Server Integration Services

Integration Services 提供数据挖掘项目的数据准备和定型阶段所需的组件和功能。 虽然您可使用其他工具(如脚本)执行很多数据清除或准备任务,但 Integration Services 在数据挖掘方面具有众多优势:

  • 将任务表示为工作流的一部分,可对其进行重复、自动化、分支或扩展。

  • 为审核提供了广泛支持,还为捕获错误和记录事件提供了多种方式。

    除了捕获数据沿袭,还可通过数据转换管道监视数据的更改。

    还可将 SSIS 工作流与支持变更数据捕获功能的 SQL Server 功能集成。

  • 可将数据挖掘合并到 Integration Services 工作流中,以将传入数据合理地分离到多个表中。 例如,您可使用预测查询将新客户拆分为不同的组以在邮递活动中设定目标。

以下列表提供了指向 Integration Services 组件的链接,这些组件广泛用于支持数据挖掘。

控制流组件

数据流组件

返回页首

SQL Server Reporting Services

虽然 Reporting Services 通常不会被视为数据挖掘解决方案的重要组件,但它提供的以下功能对演示数据挖掘解决方案很有用。

  • 在复杂报表中集成来自多个源的数据。 为分析人员创建对模型内容的查询,并创建为最终用户显示预测和趋势的报表。

  • 用于创建可让用户直接对现有挖掘模型进行查询的报表的功能。

  • 与 Analysis Services 集成,以支持对从 OLAP 模型创建的数据挖掘维度和数据挖掘多维数据集的钻取和浏览。

  • Reporting Services 中可用的参数化和格式化功能。

有关如何将 Reporting Services 作为数据源与 DMX 查询一起使用的详细信息,请参阅以下链接:

从数据挖掘模型检索数据 (DMX) (SSRS)

Analysis Services DMX 查询设计器用户界面

针对 DMX 的 Analysis Services 连接类型 (SSRS)

但是,不需要将 DMX 用作数据源。 用于数据挖掘的 Integration Services 组件还支持将预测查询的结果保存到关系数据库中。 如果已建立用于使用 Integration Services 更新模型的工作流,则将预测和其他数据挖掘查询结果保存到 SQL Server 可使您能够使用 Power View 进行报告,并能使用其他不与 DMX 建立接口连接的工具。

有关将 Reporting Services 用作数据源的表示层的详细信息,请参阅将 Reporting Services 集成到应用程序中

返回页首

Data Quality Services

Data Quality Services (DQS) 是 SQL Server 2012 的新增功能。 由于数据问题会导致无法进行数据挖掘,因此执行重复分析或在具有复杂数据源的大型组织中工作的数据挖掘人员应会发现,使用 DQS 的规划良好的数据项目是一种支持数据挖掘的解决方案,它比使用 Transact-SQL 或其他脚本的即席数据清除更为可靠。

应考虑将以下 DQS 功能用于数据挖掘解决方案中的数据准备和数据集成。

  • 计算机辅助的数据清除过程,该过程可分析源数据并提出更改建议。
    DQS 会将源数据与数据质量提供程序维护和保护的基于云的引用数据进行比较。

    DQS 还会分析原始源数据并从用户数据中创建知识库。 将对处理后的数据进行分类,然后向用户显示以供进一步处理。 清除过程是交互式的,意味着数据专员可批准、拒绝或修改计算机辅助的数据清除过程建议的数据。

    可通过此过程获得一个知识库,可以持续改进该知识库或在多个数据增强阶段中重复使用它。

    有关详细信息,请参阅数据清理

  • 计算机辅助的匹配过程,该过程可分析源数据并提出更改建议。
    若要防止数据重复,您可对数据源执行额外清除,以标识精确匹配项和近似匹配项。 利用这些组件,您可指定匹配规则和应用规则的阈值。

    通过查找数据匹配项,您可删除重复项,从而解决这一数据挖掘问题。 消除数据重复不会自动进行;数据专员和 IT 专业人员必须对知识库中的知识和要对数据进行的更改进行验证。

    创建初始 DQS 项目之后,可使用 Integration Services 组件实现许多任务的自动化。

    有关详细信息,请参阅数据匹配

    在数据质量项目中执行清除和匹配活动时,可获得与 DQS 处理的数据有关的实时统计信息和其他信息。 数据事件探查可帮助您评估数据清除或数据匹配在多大程度上帮助提高数据质量,并理解已做的更改。 有关数据事件探查和通知的信息,请参阅 DQS 中的数据事件探查和通知

  • 一个表示以下三种类型的知识的知识库:现有知识、DQS 服务器生成的知识和用户生成的知识。
    创建知识库之后,您可使用它反复清除和验证其他数据。

    您可将来自多个源的新数据导入知识库中,这些数据是来自引用提供程序的已知干净数据,或与知识库中现有数据匹配的原始数据。

    有关数据质量项目中的清除活动的详细信息,请参阅数据清除 (DQS)。

    还可将知识库中的知识应用于其他源,以在其他进程中执行数据清除。 此类数据清除可帮助标识用户输入错误、传输或存储过程中的数据损坏或不匹配的数据字典定义。

有关详细信息,请参阅DQS 知识库和域

返回页首

全文搜索

SQL Server 中的全文搜索为应用程序和用户提供了对 SQL Server 表中基于字符的数据运行全文查询的功能。 启用全文搜索后,可对由有关多种形式的词或短语的语言特定的规则增强的文本数据执行搜索。 还可配置搜索条件(如多个字词之间的距离),使用函数约束按可能性顺序返回的结果。

由于全文查询是 SQL Server 引擎所提供的一项功能,因此,您可对文本数据源使用全文搜索来创建参数化查询、生成自定义数据集或字词向量,并在数据挖掘中使用这些源。

有关如何将全文查询用于全文索引的详细信息,请参阅使用全文搜索查询

使用 SQL Server 全文搜索功能的好处是,您可利用所有 SQL Server 语言附带的断字符和词干分析器中包含的语言智能。 通过使用提供的断字符和词干分析器,您可确保使用适用于每种语言的字符分隔字词,并且不会忽略基于标注字符或拼字变体(如日语中的多种数字格式)的同义词。

除了控制词边界的语言智能之外,每种语言的词干分析器还可基于对应语言中的语态和拼字变体规则的知识,将词的变体减少至单个字词。 每种语言的语言分析规则各不相同,这些规则是根据对实际公司所做的大量调研来制定的。

有关详细信息,请参阅配置和管理断字符和词干分析器以便搜索

全文索引后存储的词的版本是一个压缩格式的标记。 对全文索引进行的后续查询将基于相应的语言规则生成特定词的多种变形形式,以确保生成所有可能的匹配项。 例如,即使存储的标记可能为“run”,查询引擎也会查询词“running”、“ran”和“runner”,因为这些词都是根词“run”正常派生的语形学变体。

还可以创建和生成用户同义词库以存储同义词并获得更佳搜索结果,或对字词进行分类。 通过开发针对全文数据定制的同义词库,您可以有效地扩大对这些数据的全文查询的范围。 有关详细信息,请参阅为全文搜索配置和管理同义词库文件

使用全文搜索的要求包括:

  • 数据库管理员必须对表创建全文索引。

  • 每个表只允许有一个全文索引。

  • 您为其编制索引的每个列均必须有一个唯一键。

  • 仅包含以下数据类型的列支持全文索引:char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary 和 varbinary(max)。 如果列为 varbinary、varbinary(max)、image 或 xml,则您必须在单独的类型列中指定可编制索引的文档的文件扩展名(.doc、.pdf、.xls 等)。

返回页首

语义索引

语义搜索以 SQL Server 中现有的全文搜索功能为基础,但使用其他功能和统计信息来启用方案(如相关文档的自动关键字提取和发现)。 例如,您可以使用语义搜索来建立一个组织的基本分类,或对文档集进行分类。 您也可在聚类分析或决策树模型中将提取的字词和文档相似性得分组合使用。

在成功启用语义搜索并为数据列编制索引后,您可将本机提供的函数与语义索引一起使用来执行以下操作:

  • 返回单个词关键短语及其得分。

  • 返回包含指定的关键词短语的文档。

  • 返回相似性得分和影响得分的词语。

有关详细信息,请参阅使用语义搜索查找文档中的关键短语使用语义搜索来查找相似和相关文档

有关支持语义索引的数据库对象的详细信息,请参阅对表和列启用语义搜索

使用语义搜索的要求包括:

  • 同时启用全文搜索。

  • 安装语义搜索组件还会创建特殊系统数据库,不能重命名、更改或替换该数据库。

  • 使用该服务编制索引的文档必须存储到 SQL Server 上的支持全文索引(包括表和索引视图)的任何数据库对象中。

  • 不是所有的全文语言都支持语义索引。 有关支持的语言的列表,请参阅 sys.fulltext_semantic_languages (Transact-SQL)

返回页首

请参阅

概念

多维模型解决方案 (SSAS)

表格模型解决方案(SSAS 表格)