Odcinek

Wyodrębnianie znaczących noisy Biclusters z binarnej macierzy danych big data przy użyciu pakietu biBitR R

with Ewoud De Troyer

useR!2017: Wyodrębnianie znaczących hałaśliwych Biclusters f...

Słowa kluczowe: R, pakiet, biclustering, dane binarne
Strony internetowe: https://cran.r-project.org/web/packages/BiBitR/index.hmtl,https://github.com/ewouddt/BiBitR
Biclustering to metoda analizy danych, która może służyć do klastrowania wierszy i kolumn w macierzy danych (big data) jednocześnie w celu zidentyfikowania lokalnych podmatry, tj. wzorców lokalnych w macierzy danych big data. W przypadku macierzy danych binarnych lokalne podmatry, które metody biclustering mogą identyfikować składa się z prostokątów 1. Opracowano kilka metod biclusteringu danych binarnych, takich jak algorytm Bimax proponowany przez Prelić et al. (2006) i algorytm BiBit rodriguez-Baena, Perez-Pulido i Aguilar-Ruiz (2011). Jednak te metody są w stanie odkryć tylko doskonałe biclusters, co oznacza, że hałas nie jest dozwolony (tj. zera nie są uwzględnione w bicluster). Przedstawiamy rozszerzenie algorytmu BiBit (E-BiBit), które umożliwia hałaśliwe biclusters. Chociaż ta metoda działa bardzo szybko, jej wadą jest to, że często produkuje dużą liczbę biclusters (zazwyczaj >10000), co sprawia, że bardzo trudno odzyskać wszelkie znaczące wzorce i interpretować wyniki. Ponadto wiele z tych biclusters są bardzo nakładające się.
Proponujemy przepływ pracy analizy danych, aby wyodrębnić znaczące hałaśliwe biclusters z danych binarnych przy użyciu rozszerzonej i "opartej na wzorcu" wersji BiBit i połączyć ją z tradycyjnymi metodami klastrowania/sieci. Proponowany algorytm i przepływ pracy analizy danych są ilustrowane przy użyciu pakietu języka R biBitR w celu wyodrębnienia i wizualizacji tych wyników.
Proponowany przepływ metody/analizy danych jest stosowany do danych o zdrowiu w życiu rzeczywistym o wysokim wymiarach, które zawierają informacje o objawach choroby setek tysięcy pacjentów. Algorytm E-BiBit służy do identyfikowania homogenicznych podzestawów pacjentów, którzy mają te same profile objawów choroby.
E-BiBit został również uwzględniony w pakiecie BiclustGUI R (De Troyer i Otava (2016), De Troyer et al. (2016)), pakiecie graficznego interfejsu użytkownika zespołu, w którym zaimplementowano wiele metod biclusteringu i wizualizacji.
Odwołuje się do De Troyera, E., i M. Otava. 2016 Pakiet "Rcmdrplugin.BiclustGUI": "Rcmdr" Plug-in Gui for Biclustering. https://ewouddt.github.io/RcmdrPlugin.BiclustGUI/aboutbiclustgui/.

De Troyer, E., M. Otava, J. D. Zhang, S. Pramana, T. Khamiakova, S. Kaiser, M. Sill, et al. 2016. "Zastosowane metody Biclustering dla danych big i high-wymiarowych przy użyciu języka R." W, edytowany przez A. Kasim, Z. Shkedy, S. Kaiser, S. Hochreiter i W. Talloen. CRC Press Taylor & Francis Group, Chapman & Hall/CRC Biostatistics Series.

Prelić, A., S. Bleuler, P. Zimmermann, Wille A., P. Bühlmann, W. Gruissem, L. Henning, L. Thiele i E. Zitzler. 2006. "Systematyczne porównanie i ocena metod Biclustering dla danych wyrażeń genowych." Bioinformatyka 22: 1122–9.

Rodriguez-Baena, Santo S., Antona J. Perez-Pulido i Jesus S. Aguilar-Ruiz. 2011. "Algorytm Biclustering do wyodrębniania wzorców bitów z binarnych zestawów danych." Bioinformatyka 27 (19).