Серия

Интегрированный анализ кластеров с помощью R в экспериментах обнаружения наркотиков с использованием данных с несколькими источниками

на Marijke Van Moerbeke

useR!2017: интегрированный анализ кластеров с R в dr...

  1. Институт биостатизма и статистической биоинформатики, Университет Хасселта, Бельгия
  2. Ключевые слова независимого консультанта: высокомерные данные, кластеризация
    Веб-страницы: https://cran.r-project.org/web/packages/IntClust/index.html
    Обнаружение точной деятельности соединения является основным интересом к разработке наркотиков. Один препарат может взаимодействовать с несколькими целевыми объектами и непреднамеренное взаимодействие с наркотиками может привести к серьезным побочным эффектам. Поэтому на ранних этапах обнаружения наркотиков важно не только продемонстрировать желаемую эффективность соединений на целевом объекте, но и очертить его нежелательные внецельные эффекты. Кроме того, более раннее нежелательное поведение задокументировано, тем лучше. В противном случае препарат может завершиться неудачей на более позднем этапе, что означает, что инвестиции, усилия и деньги теряются.
    На ранних стадиях развития наркотиков собираются различные типы информации о соединениях: химические структуры молекул (отпечатки пальцев), прогнозируемые цели (целевые прогнозы), на различных биоассах, токсикации и многое другое. Анализ каждого источника данных может показать интересные, но несвязанные сведения. Он предоставляет только ограниченную точку зрения и не предоставляет информацию о том, как все связано в глобальной картине (Ши, Де Мур и Moreau 2009). Таким образом, одновременный анализ нескольких источников данных может обеспечить более полное представление о активности соединений.
    Анализ на основе нескольких источников данных является относительно новой и растущей областью в области обнаружения наркотиков и разработки наркотиков. Процедуры кластеризации с несколькими источниками предоставляют нам возможность связать несколько источников данных друг с другом, чтобы лучше понять механизм действия соединений. Использование нескольких источников данных было расследовано в консорциуме QSTAR (отношение количественной структуры транскрибирования активности) (Ravindranath et al. 2015). Цель состоит в том, чтобы найти связи между химическими, биоассами и транскрибомическими данными в анализе набора соединений в процессе разработки.
    В текущем исследовании мы расширяем метод кластеризации, представленный в(Perualila-Tan et al. 2016) и проверяем производительность нескольких методов кластеризации в реальном проекте обнаружения наркотиков в R. Мы иллюстрируем, как новые подходы кластеризации предоставляют ценные сведения об интеграции химических, биоассайских и транскрибомических данных в анализе определенного набора соединений. Предлагаемые методы реализованы и общедоступны доступны в пакете R IntClust, который является пакетом-оболочкой для множества методов кластеризации ансамбля.
    Ссылки Perualila-Tan, N., Z. Shkedy, W. Talloen, H. W. H. Goehlmann, QSTAR Consortium, M. Van Moerбекe и А. Касим. 2016 г. "Взвешенная подобие на основе кластеризации химических структур и биоактивности данных в ранних дискобазах наркотиков". Журнал биоинформатики и вычислительной биологии.

Ravindranath, A. C., N. Perualila-Tan, A. Kasim, G. Drakakis, S. Liggi, S. C. Пивовартон, D. Mason, et al. 2015. "Подключение данных выражения гена из карты подключения и в сильико целевых прогнозов для анализа небольших молекул в действии". Мол. Биосист. 11 (1). Королевское общество химии: 86–96. doi:10.1039/C4MB00328D.

Ши, Y., B. De Moor и Y. Мореу. 2009. "Кластеризация по разнородному слиянию данных: платформа и приложения". Семинар NIPS.