Журнал Science назвал 10 главных прорывов года в науке: алгоритмы предсказания структуры белков, таблетки от COVID-19 и шаг к управляемому термоядерному синтезу
«Прорыв года» — ежегодная премия, присуждаемая журналом Science, за наиболее значительные научные исследования и открытия. Это одна из высших наград в области науки. В 2021 году известное издание присудило главный приз за исследования трехмерной структуры белков с помощью искусственного интеллекта (ИИ).
В своей речи на вручении Нобелевской премии в 1972 году американский биохимик Кристиан Анфинсен заявил, что однажды можно будет предсказать трехмерную структуру любого белка, просто исходя из последовательности его аминокислот. К сожалению, он не дожил до того дня, когда это стало возможным.
В человеческом теле сотни тысяч белков. Они сокращают мышцы, превращают пищу в клеточную энергию, переносят кислород и борются с микроорганизмами-захватчиками. При этом у всех белков одна основная форма: линейная цепочка из 20 различных видов аминокислот, связанных друг с другом в последовательности, закодированной в ДНК. Посредством рибосом эти цепочки приобретают сложную трехмерную форму. Она определяет, как белки взаимодействуют с другими молекулами, их роль в клетке.
В 1950-х годах ведущим подходом для определения трехмерной структуры была рентгеновская кристаллография. Исследователи наносили на карту трехмерные структуры белков, анализируя, как рентгеновские лучи «рикошетят» от атомов молекул. В 60-х годах в своих работах Анфинсен и другие ученые предположили, что взаимодействия между аминокислотами придают белкам их окончательную форму. Но, учитывая огромное количество возможных связей между каждым отдельным звеном цепи и всеми остальными, белки даже небольшого размера принимали астрономическое количество возможных форм. И на расшифровку всех белков человеческого организма потребовались бы сотни лет и миллиарды долларов.
Спустя почти 50 лет исследователи создали программное обеспечение, управляемое искусственным интеллектом, способное воспроизводить тысячи точных белковых структур. В 2018 году появилась программа AlphaFold компании Google DeepMind. Она обучалась работе на уже готовых базах белковых структур. В 2020 году создана программа AlphaFold2, состоявшая из сети 182 процессоров, оптимизированных для машинного обучения. Она работала почти на уровне экспериментальных методов.
В 2021 году программа искусственного интеллекта RoseTTAFold решила структуры сотен белков из класса общих лекарственных мишенейКонкретных молекул в организме, чья биохимическая функция тесно связана с возникновением и/или развитием определенной патологии, воздействие на которые молекулой лекарственного препарата дает терапевтический эффект. Позже ИИ DeepMind проделал то же, но с 350 тысячами белков, обнаруженных в человеческом теле (44% всех известных).
В ближайшие месяцы исследователи рассчитывают увеличить базу до 100 миллионов белков всех видов, что составляет почти половину от предполагаемого общего числа. Следующая задача — предсказать, какие из этих белков работают вместе и как они взаимодействуют. DeepMind AlphaFold2 уже этим занимается: в октябре ученые представили 4433 белок-белковых комплекса. В ноябре RoseTTAFold добавил еще 912 комплексов.
Alphabet намерен использовать предсказанные белковые структуры для разработки новых кандидатов в лекарства. А RoseTTAFold — придумывать новые последовательности белков, которые превратятся в стабильные структуры, что может привести к появлению новых антивирусных препаратов и катализаторов.
Код программ общедоступен и помогает ученым по всему миру. Они используют AlphaFold2 для моделирования эффекта мутаций в спайковом (S) белке штамма «Омикрон». Встраивая в белок более крупные аминокислоты, мутации изменили его форму — возможно, настолько, что антитела не могут нейтрализовать вирус.