剧集
manifestoR - 数据记者的工具、文本矿工的源和可重现软件的原型
替换为 Jirka Lewandowski
useR!2017:manifestoR - 数据记者的工具...
关键字:政治科学、可重现性、语言库、数据新闻、文本挖掘
网页: https://CRAN.R-project.org/package=manifestorhttps://manifesto-project.wzb.eu/information/documents/manifestoR
宣言项目是一个长期的政治科学研究项目,自1979年以来一直在从民主选举中收集、存档和分析政党计划,是政治科学中长期和最常用的数据源之一。 该项目最近发布了 宣言文件 作为其官方 R 包,用于访问和分析项目收集的数据。 该包面向三个组:它是数据新闻和社会科学的宝贵工具、文本挖掘的数据源,以及促进研究可重现性的软件的原型。
宣言 包 提供访问宣言语料库(默兹、雷格尔和莱万多夫斯基 2016 年)(该项目的文本数据库)的访问,该数据库包含来自 573 个政党的 3000 多个数字化选举方案,一起在 1946 年至 2015 年间在 50 个国家/地区的选举中运行,并包含超过 35 种语言的文件。 其中超过 2000 个文档以数字化、清理、UTF-8 编码的全文形式提供 – 其余文档为 PDF 文件。 由于这些文本可以直接在 R 内部访问,因此,ManifestoR 为对政治和/或多语言训练数据感兴趣的文本矿工以及数据记者提供了一个舒适而有价值的数据源。
根据标识策略问题和位置的 56 类别方案,通过 manifestoR 访问的宣言文本按语句标记。 在这项标签计划的基础上,政治科学界为政党的思想立场制定了多种不同规模的综合指数。 其中大多数算法已收集并包含在宣言中,以便提供集中且易于使用的起点进行科学和新闻分析和调查。
科学分析的可复制性和可重现性是 R 社区的核心价值,在社会科学中日益重要。 因此,宣言旨在考虑到可重现性研究的目标,并试图树立政治科学研究项目如何发布和维护开放源代码包,以在使用其数据时促进可重现性。 Manifesto Project 的文本集合不断发展和更新,但任何已发布的版本都可以轻松地用作使用 manifestoR 编写的脚本的基础。 此外,该包与 R 中用于文本挖掘的广泛使用 tm 包(Feinerer 2008)无缝集成,并为每个数据对象提供data_frame表示形式,以便连接到整洁包(Wickham 2014),包括特定于文本的整理文本(Silge & Robinson 2016)。 为了在宣言中标准化和开源社区聚合索引的实现,我们寻求与原始作者的合作。 此外,该包还提供基础结构来轻松调整此类索引,或创建新的索引。 演讲还将讨论所吸取的教训和在为政治科学界制定这样的一揽子计划时出现的未满足的挑战。
参考
- 费纳勒,英戈(2008年)。 R 及其应用程序中的文本挖掘框架。 博士论文,吴维也纳经济与商业大学。
- 默兹,N.,雷格尔,S.,和莱万多夫斯基,J.(2016年)。 宣言:一种新的资源,用于研究政党和定量文本分析。 研究与政治,3(2),2053168016643346。 doi:10.1177/2053168016643346
- 西尔格, J. , 和罗宾逊, D. (2016 年)。 整理文本:使用 R. JOSS 1 (3) 中的整洁数据原则进行文本挖掘和分析。 开放日记。 doi:10.21105/joss.00037。
- 威克汉姆(2014年)。 整理数据。 统计软件杂志,59(10),1 - 23。 doi:http://dx.doi.org/10.18637/jss.v059.i10
useR!2017:manifestoR - 数据记者的工具...
关键字:政治科学、可重现性、语言库、数据新闻、文本挖掘
网页: https://CRAN.R-project.org/package=manifestorhttps://manifesto-project.wzb.eu/information/documents/manifestoR
宣言项目是一个长期的政治科学研究项目,自1979年以来一直在从民主选举中收集、存档和分析政党计划,是政治科学中长期和最常用的数据源之一。 该项目最近发布了 宣言文件 作为其官方 R 包,用于访问和分析项目收集的数据。 该包面向三个组:它是数据新闻和社会科学的宝贵工具、文本挖掘的数据源,以及促进研究可重现性的软件的原型。
宣言 包 提供访问宣言语料库(默兹、雷格尔和莱万多夫斯基 2016 年)(该项目的文本数据库)的访问,该数据库包含来自 573 个政党的 3000 多个数字化选举方案,一起在 1946 年至 2015 年间在 50 个国家/地区的选举中运行,并包含超过 35 种语言的文件。 其中超过 2000 个文档以数字化、清理、UTF-8 编码的全文形式提供 – 其余文档为 PDF 文件。 由于这些文本可以直接在 R 内部访问,因此,ManifestoR 为对政治和/或多语言训练数据感兴趣的文本矿工以及数据记者提供了一个舒适而有价值的数据源。
根据标识策略问题和位置的 56 类别方案,通过 manifestoR 访问的宣言文本按语句标记。 在这项标签计划的基础上,政治科学界为政党的思想立场制定了多种不同规模的综合指数。 其中大多数算法已收集并包含在宣言中,以便提供集中且易于使用的起点进行科学和新闻分析和调查。
科学分析的可复制性和可重现性是 R 社区的核心价值,在社会科学中日益重要。 因此,宣言旨在考虑到可重现性研究的目标,并试图树立政治科学研究项目如何发布和维护开放源代码包,以在使用其数据时促进可重现性。 Manifesto Project 的文本集合不断发展和更新,但任何已发布的版本都可以轻松地用作使用 manifestoR 编写的脚本的基础。 此外,该包与 R 中用于文本挖掘的广泛使用 tm 包(Feinerer 2008)无缝集成,并为每个数据对象提供data_frame表示形式,以便连接到整洁包(Wickham 2014),包括特定于文本的整理文本(Silge & Robinson 2016)。 为了在宣言中标准化和开源社区聚合索引的实现,我们寻求与原始作者的合作。 此外,该包还提供基础结构来轻松调整此类索引,或创建新的索引。 演讲还将讨论所吸取的教训和在为政治科学界制定这样的一揽子计划时出现的未满足的挑战。
参考
- 费纳勒,英戈(2008年)。 R 及其应用程序中的文本挖掘框架。 博士论文,吴维也纳经济与商业大学。
- 默兹,N.,雷格尔,S.,和莱万多夫斯基,J.(2016年)。 宣言:一种新的资源,用于研究政党和定量文本分析。 研究与政治,3(2),2053168016643346。 doi:10.1177/2053168016643346
- 西尔格, J. , 和罗宾逊, D. (2016 年)。 整理文本:使用 R. JOSS 1 (3) 中的整洁数据原则进行文本挖掘和分析。 开放日记。 doi:10.21105/joss.00037。
- 威克汉姆(2014年)。 整理数据。 统计软件杂志,59(10),1 - 23。 doi:http://dx.doi.org/10.18637/jss.v059.i10
想提供反馈? 在此处提交问题。