剧集
使用 BiBitR R 包从二进制大数据矩阵中提取有意义的干扰 Bicluster
替换为 Ewoud De Troyer
useR!2017:提取有意义的干扰 Biclusters f...
关键字:R、包、biclustering、二进制数据
网页: https://cran.r-project.org/web/packages/BiBitR/index.hmtlhttps://github.com/ewouddt/BiBitR
Biclustering 是一种数据分析方法,可用于同时对(大数据)数据矩阵中的行和列进行聚类,以便识别感兴趣的局部子级,即大数据矩阵中的本地模式。 对于二进制数据矩阵,biclustering 方法可以识别的局部子矩阵由 1 的矩形组成。 为二进制数据的 biclustering 开发了几种方法,例如 Prelido et al.(2006 年)提出的 Bimax 算法,以及 罗德里格斯-巴埃纳、佩雷斯-普利多和 Aguilar-Ruiz(2011 年)提出的 BiBit 算法。 但是,这些方法只能够发现完美的 bicluster,这意味着不允许干扰(即,零不包含在 bicluster 中)。 我们提供了允许干扰 bicluster 的 BiBit 算法(E-BiBit)的扩展。 虽然此方法的工作方式非常快,但其缺点是,它通常会生成大量双类星(通常 >为 10000),这使得很难恢复任何有意义的模式并解释结果。 此外,其中许多冰石高度重叠。
建议使用 BiBit 的扩展和“模式引导”版本从二进制数据中提取有意义的干扰 bicluster,并将其与传统的聚类分析/网络方法相结合。 建议的算法和数据分析工作流使用 BiBitR R 包来提取和可视化这些结果。
建议的方法/数据分析流适用于高维现实生活健康数据,其中包含数十万患者疾病症状的信息。 E-BiBit 算法用于识别共享相同疾病症状配置文件的同质患者子集。
E-BiBit 也包含在 BiclustGUI R 包(De Troyer 和 Otava (2016)、De Troyer et al. (2016)中),这是一个合奏 GUI 包,其中实现了多个 biclustering 和可视化方法。
引用 De Troyer、E. 和 M. Otava。 2016. 包“Rcmdrplugin.BiclustGUI”:用于 Biclustering 的“Rcmdr”插件 Gui。 https://ewouddt.github.io/RcmdrPlugin.BiclustGUI/aboutbiclustgui/。
德特罗耶,E.,M.奥塔瓦,J.D.张,S.普拉马纳,T.哈米科娃,S.凯撒,M.西尔等2016年。 “使用 R 为大数据和高维数据应用了 Biclustering 方法。由A.Kasim、Z.Shkedy、S.Kaiser、S.Hochreiter和W.Talloen编辑。 CRC 新闻泰勒和弗朗西斯集团,查普曼和霍尔/CRC 生物统计系列。
Prelitz、A.、S.Bleuler、P.Zimmermann、Wille A.、P.Bühlmann、W.Gruissem、L.Henning、L.Thiele 和 E. Zitzler。 2006. “对基因表达式数据的 Biclustering 方法进行系统比较和评估。 生物信息学 22:1122-9。
罗德里格斯-贝纳、多明戈、安东尼娜·佩雷斯-普利多和耶稣·阿吉拉尔-鲁伊斯。 2011. “用于从二进制数据集中提取位模式的 Biclustering 算法。 生物信息学 27(19)。
useR!2017:提取有意义的干扰 Biclusters f...
关键字:R、包、biclustering、二进制数据
网页: https://cran.r-project.org/web/packages/BiBitR/index.hmtlhttps://github.com/ewouddt/BiBitR
Biclustering 是一种数据分析方法,可用于同时对(大数据)数据矩阵中的行和列进行聚类,以便识别感兴趣的局部子级,即大数据矩阵中的本地模式。 对于二进制数据矩阵,biclustering 方法可以识别的局部子矩阵由 1 的矩形组成。 为二进制数据的 biclustering 开发了几种方法,例如 Prelido et al.(2006 年)提出的 Bimax 算法,以及 罗德里格斯-巴埃纳、佩雷斯-普利多和 Aguilar-Ruiz(2011 年)提出的 BiBit 算法。 但是,这些方法只能够发现完美的 bicluster,这意味着不允许干扰(即,零不包含在 bicluster 中)。 我们提供了允许干扰 bicluster 的 BiBit 算法(E-BiBit)的扩展。 虽然此方法的工作方式非常快,但其缺点是,它通常会生成大量双类星(通常 >为 10000),这使得很难恢复任何有意义的模式并解释结果。 此外,其中许多冰石高度重叠。
建议使用 BiBit 的扩展和“模式引导”版本从二进制数据中提取有意义的干扰 bicluster,并将其与传统的聚类分析/网络方法相结合。 建议的算法和数据分析工作流使用 BiBitR R 包来提取和可视化这些结果。
建议的方法/数据分析流适用于高维现实生活健康数据,其中包含数十万患者疾病症状的信息。 E-BiBit 算法用于识别共享相同疾病症状配置文件的同质患者子集。
E-BiBit 也包含在 BiclustGUI R 包(De Troyer 和 Otava (2016)、De Troyer et al. (2016)中),这是一个合奏 GUI 包,其中实现了多个 biclustering 和可视化方法。
引用 De Troyer、E. 和 M. Otava。 2016. 包“Rcmdrplugin.BiclustGUI”:用于 Biclustering 的“Rcmdr”插件 Gui。 https://ewouddt.github.io/RcmdrPlugin.BiclustGUI/aboutbiclustgui/。
德特罗耶,E.,M.奥塔瓦,J.D.张,S.普拉马纳,T.哈米科娃,S.凯撒,M.西尔等2016年。 “使用 R 为大数据和高维数据应用了 Biclustering 方法。由A.Kasim、Z.Shkedy、S.Kaiser、S.Hochreiter和W.Talloen编辑。 CRC 新闻泰勒和弗朗西斯集团,查普曼和霍尔/CRC 生物统计系列。
Prelitz、A.、S.Bleuler、P.Zimmermann、Wille A.、P.Bühlmann、W.Gruissem、L.Henning、L.Thiele 和 E. Zitzler。 2006. “对基因表达式数据的 Biclustering 方法进行系统比较和评估。 生物信息学 22:1122-9。
罗德里格斯-贝纳、多明戈、安东尼娜·佩雷斯-普利多和耶稣·阿吉拉尔-鲁伊斯。 2011. “用于从二进制数据集中提取位模式的 Biclustering 算法。 生物信息学 27(19)。
想提供反馈? 在此处提交问题。