Биопрограмма genopharm вскрывает спрятанные знания

Тысячи статей по генетическим исследованиям хранят в себе некую сверх-информацию, неведомую даже самим их авторам. Чтобы её выявить, американские учёные создают интеллектуальную программу, подражающую в анализе текстов живому человеку.

Представьте, сколько лабораторий и отдельных групп занято в исследованиях, связанных с генами, медициной и биологией.

Вот один учёный установил, что ген, условно назовём его А, связан с болезнью B. Другой учёный обнаружил, что болезнь B влияет на активность гена C. Третий нашёл связь активности гена С с наличием вещества D…

Цепочка очевидна, когда кто-то её уже нарисовал. Но представьте теперь, что научных групп в этой области сотни, генов, которые они анализируют – десятки тысяч и научных отчётов также – сотни и тысячи.

Неудивительно, что многие знания, в неявном виде присутствующие в уже проведённых исследованиях, остаются неизвестными миру. А ведь подобные цепочки связей очень важны для создания новых лекарств, к примеру, или для генной терапии.

На прочтение «кипы» статей биолог тратит неделю, в конце которой он, возможно, случайно наткнётся на одну такую связь, одно звено. Сколько же займёт вычисление паутины взаимосвязей, в которой задействованы несколько генов?

Исследователи из американской национальной лаборатории Беркли (Berkeley Lab) намерены сократить это время до минут с помощью системы поиска, имитирующей мышление человека.

В отличие от обычных поисковых машин, «тупо» перебирающих контент по ключевым словам, программа GenoPharm ищет ассоциативные связи.

«GenoPharm подражает способу, которым биологи перерывают биомедицинскую литературу для обнаружения связей между генами», — говорит Казиан Франкс (Kasian Franks) из лаборатории Беркли, который придумал систему вместе со своими коллегами Миной Биссель (Mina Bissell) и Кони Миерс (Connie Myers).

Чтобы задать работу машине, человек выбирает ген и контекст, типа «молекулярной функции» или «терапии».

Результат – наглядная сеть связей генов, которые встречаются более-менее близко друг от друга в научной литературе, опубликованной в Интернете.

Биопрограмма genopharm вскрывает спрятанные знания
Пример ассоциативных связей между генами, болезнями и лекарствами, найденных программой Франкса (иллюстрация с сайта lbl.gov).

Некоторые из таких связей окажутся известными, а некоторые – неожиданными.

Так, ввод названия гена BRAC-1 даёт информацию о том, что это ген, который играет роль в развитии рака молочной железы. Далее – что BRAC-1 связан с геном, который задействован в некой ДНК.

Что та связана с другим геном, который является «целью» для препарата, который замедляет рост раковых клеток.

«Мы в состоянии найти косвенные связи между генами и различными терапиями, которые не были замечены прежде», — поясняет Франкс.

Идея поисковой машины, которая наносила бы на карту ассоциации, пришла к Франксу во время наблюдения за своими маленькими детьми. Он заметил, как дети берут две отдельные части «знания» и, комбинируя их, придумывают что-то новое.

Франкс задался вопросом — мог бы он заставить компьютер проделать ту же самую вещь?

Он приспособил для этой цели поисковый движок, разработанный здесь же в Беркли, под названием Geneva Development System.

Эта система измеряет близость любого слова к каждому другому слову в миллионах документов, и, когда её «спрашивают», показывает, как опредёленное слово связано с другими.

Разумеется, биологи могут сами искать непрямые, неочевидные связи между генами, только времени на это требуется невероятно много (фото с сайта archiv.ub.uni-heidelberg.de).

Развивая этот принцип, Франкс оглядывался на то, как человек ищет ассоциации. Если вас просят найти слова, связанные со словом «небо», то почти наверняка вы ответите «синее» и «облако» – потому, что привыкли к частому «обнаружению» этих слов очень близко к «небу» в самых разных текстах.

Этот принцип ассоциаций связан с человеческим процессом познания, с хранением и воспроизведением воспоминаний.

Также и GenoPharm «ассоциативно» перелопачивает тексты описания десятков тысяч генов, хранящиеся в публичных базах данных по биомедицинским исследованиям.

Как только ассоциативная сеть, окружающая один ген вычислена, программа наносит на карту все болезни и способы лечения, связанные с каждым из генов сети.

Система всё ещё развивается. Франкс говорит, что очень нелегко научить компьютер делать то, что свободно проделывает ребёнок, но цель учёного – насколько возможно сократить расстояние между способностью человека и машины.

Хотя бы только в данном, специфичном случае.

Гормон Роста — HGH


Читать также…

Читайте также: