剧集
使用 R 进行文本分析和文本挖掘
替换为 Kenneth Benoit
useR!2017:使用 R 的文本分析和文本挖掘
关键字:文本分析、文本挖掘、机器学习、社交媒体
摘要 A useR! 讨论使用 R 的文本分析和文本挖掘。我将介绍 R 中文本分析和自然语言处理的广泛工具集,重点介绍 R 包 quanteda,但也涵盖 R 生态系统中的其他主要工具进行文本分析(例如 stringi)。
演讲将介绍如何使用 R 执行常见的文本分析和自然语言处理任务。与一些数据科学家普遍认为正确使用时,R 是一种快速而强大的工具,用于管理非常大的文本分析任务。 我的演讲将提供许多可用选项,演示这些工作在大数据上的工作,并比较 R 针对这些任务的功能与 Python 中的常用选项。
具体而言,我将演示如何设置源文本的格式和输入源文本、如何构建其元数据以及如何为分析做好准备。 这包括标记化等常见任务,包括构造 ngram 和“skip-gram”、删除非索引字、词干词和其他形式的特征选择。 我还介绍如何标记语音部分内容并分析文本中的结构依赖关系。 对于统计分析,我将演示如何使用 R 从文本获取摘要统计信息、搜索和分析关键字和短语、分析词法多样性和可读性文本、检测并置、应用字典以及使用距离度量值术语和文档关联。 我们的分析涵盖了 R 基本语言中与文本相关的基本数据处理,但大多数都依赖于 quanteda 包(https://github.com/kbenoit/quanteda)来对文本数据进行定量分析。 我们还介绍如何将结构化对象从 quanteda 传递到其他文本分析包,以便执行主题建模、潜在语义分析、回归模型和其他形式的机器学习。
关于我 肯尼思·贝诺伊特 是伦敦经济和政治学院定量社会研究方法教授。 他目前的研究侧重于处理大量文本数据的自动化、定量方法,主要是政治文本和社交媒体。 从数据分析(包括社交媒体)和文本挖掘方法,到当前的兴趣范围。 在过去的5年里,他一直在开发一个主要的 R 包,用于文本分析, quanteda,作为欧洲研究理事会授予ERC-2011-StG 283794-QUANTESS的一部分。
useR!2017:使用 R 的文本分析和文本挖掘
关键字:文本分析、文本挖掘、机器学习、社交媒体
摘要 A useR! 讨论使用 R 的文本分析和文本挖掘。我将介绍 R 中文本分析和自然语言处理的广泛工具集,重点介绍 R 包 quanteda,但也涵盖 R 生态系统中的其他主要工具进行文本分析(例如 stringi)。
演讲将介绍如何使用 R 执行常见的文本分析和自然语言处理任务。与一些数据科学家普遍认为正确使用时,R 是一种快速而强大的工具,用于管理非常大的文本分析任务。 我的演讲将提供许多可用选项,演示这些工作在大数据上的工作,并比较 R 针对这些任务的功能与 Python 中的常用选项。
具体而言,我将演示如何设置源文本的格式和输入源文本、如何构建其元数据以及如何为分析做好准备。 这包括标记化等常见任务,包括构造 ngram 和“skip-gram”、删除非索引字、词干词和其他形式的特征选择。 我还介绍如何标记语音部分内容并分析文本中的结构依赖关系。 对于统计分析,我将演示如何使用 R 从文本获取摘要统计信息、搜索和分析关键字和短语、分析词法多样性和可读性文本、检测并置、应用字典以及使用距离度量值术语和文档关联。 我们的分析涵盖了 R 基本语言中与文本相关的基本数据处理,但大多数都依赖于 quanteda 包(https://github.com/kbenoit/quanteda)来对文本数据进行定量分析。 我们还介绍如何将结构化对象从 quanteda 传递到其他文本分析包,以便执行主题建模、潜在语义分析、回归模型和其他形式的机器学习。
关于我 肯尼思·贝诺伊特 是伦敦经济和政治学院定量社会研究方法教授。 他目前的研究侧重于处理大量文本数据的自动化、定量方法,主要是政治文本和社交媒体。 从数据分析(包括社交媒体)和文本挖掘方法,到当前的兴趣范围。 在过去的5年里,他一直在开发一个主要的 R 包,用于文本分析, quanteda,作为欧洲研究理事会授予ERC-2011-StG 283794-QUANTESS的一部分。
想提供反馈? 在此处提交问题。