Биопрограмма genopharm вскрывает спрятанные знания
Тысячи статей по генетическим исследованиям хранят в себе некую сверх-информацию, неведомую даже самим их авторам. Чтобы её выявить, американские учёные создают интеллектуальную программу, подражающую в анализе текстов живому человеку.
Представьте, сколько лабораторий и отдельных групп занято в исследованиях, связанных с генами, медициной и биологией.
Вот один учёный установил, что ген, условно назовём его А, связан с болезнью B. Другой учёный обнаружил, что болезнь B влияет на активность гена C. Третий нашёл связь активности гена С с наличием вещества D…
Цепочка очевидна, когда кто-то её уже нарисовал. Но представьте теперь, что научных групп в этой области сотни, генов, которые они анализируют – десятки тысяч и научных отчётов также – сотни и тысячи.
Неудивительно, что многие знания, в неявном виде присутствующие в уже проведённых исследованиях, остаются неизвестными миру. А ведь подобные цепочки связей очень важны для создания новых лекарств, к примеру, или для генной терапии.
На прочтение «кипы» статей биолог тратит неделю, в конце которой он, возможно, случайно наткнётся на одну такую связь, одно звено. Сколько же займёт вычисление паутины взаимосвязей, в которой задействованы несколько генов?
Исследователи из американской национальной лаборатории Беркли (Berkeley Lab) намерены сократить это время до минут с помощью системы поиска, имитирующей мышление человека.
В отличие от обычных поисковых машин, «тупо» перебирающих контент по ключевым словам, программа GenoPharm ищет ассоциативные связи.
«GenoPharm подражает способу, которым биологи перерывают биомедицинскую литературу для обнаружения связей между генами», — говорит Казиан Франкс (Kasian Franks) из лаборатории Беркли, который придумал систему вместе со своими коллегами Миной Биссель (Mina Bissell) и Кони Миерс (Connie Myers).
Чтобы задать работу машине, человек выбирает ген и контекст, типа «молекулярной функции» или «терапии».
Результат – наглядная сеть связей генов, которые встречаются более-менее близко друг от друга в научной литературе, опубликованной в Интернете.
Пример ассоциативных связей между генами, болезнями и лекарствами, найденных программой Франкса (иллюстрация с сайта lbl.gov).
Некоторые из таких связей окажутся известными, а некоторые – неожиданными.
Так, ввод названия гена BRAC-1 даёт информацию о том, что это ген, который играет роль в развитии рака молочной железы. Далее – что BRAC-1 связан с геном, который задействован в некой ДНК.
Что та связана с другим геном, который является «целью» для препарата, который замедляет рост раковых клеток.
«Мы в состоянии найти косвенные связи между генами и различными терапиями, которые не были замечены прежде», — поясняет Франкс.
Идея поисковой машины, которая наносила бы на карту ассоциации, пришла к Франксу во время наблюдения за своими маленькими детьми. Он заметил, как дети берут две отдельные части «знания» и, комбинируя их, придумывают что-то новое.
Франкс задался вопросом — мог бы он заставить компьютер проделать ту же самую вещь?
Он приспособил для этой цели поисковый движок, разработанный здесь же в Беркли, под названием Geneva Development System.
Эта система измеряет близость любого слова к каждому другому слову в миллионах документов, и, когда её «спрашивают», показывает, как опредёленное слово связано с другими.
Разумеется, биологи могут сами искать непрямые, неочевидные связи между генами, только времени на это требуется невероятно много (фото с сайта archiv.ub.uni-heidelberg.de).
Развивая этот принцип, Франкс оглядывался на то, как человек ищет ассоциации. Если вас просят найти слова, связанные со словом «небо», то почти наверняка вы ответите «синее» и «облако» – потому, что привыкли к частому «обнаружению» этих слов очень близко к «небу» в самых разных текстах.
Этот принцип ассоциаций связан с человеческим процессом познания, с хранением и воспроизведением воспоминаний.
Также и GenoPharm «ассоциативно» перелопачивает тексты описания десятков тысяч генов, хранящиеся в публичных базах данных по биомедицинским исследованиям.
Как только ассоциативная сеть, окружающая один ген вычислена, программа наносит на карту все болезни и способы лечения, связанные с каждым из генов сети.
Система всё ещё развивается. Франкс говорит, что очень нелегко научить компьютер делать то, что свободно проделывает ребёнок, но цель учёного – насколько возможно сократить расстояние между способностью человека и машины.
Хотя бы только в данном, специфичном случае.
Гормон Роста — HGH