Структурная модель зеленого флуоресцентного белка — рабочей лошадки биотехнологии.Кредит: Laguna Design/Science Photo Library
Модель искусственного интеллекта (ИИ), говорящая на языке белков, — одна из крупнейших на сегодняшний день разработанных в биологии — была использована для создания новых флуоресцентных молекул.
Демонстрация доказательства принципа была анонсирована в этом месяце компанией EvolutionaryScale в Нью-Йорке, наряду с новым финансированием в размере 142 млн долларов США для применения ее модели в разработке лекарств, устойчивом развитии и других областях. Компания, созданная учеными, которые ранее работали в технологическом гиганте Meta, является последним участником в области, которая становится все более переполненной, применяя передовые модели машинного обучения, обученные на языке и изображениях, к биологическим данным.
Инструменты ИИ разрабатывают совершенно новые белки, которые могут преобразовать медицину
«Мы хотим создать инструменты, которые позволят сделать биологию программируемой», — говорит Алекс Ривс, главный научный сотрудник компании, который принимал участие в работе Meta по применению ИИ к биологическим данным.
Инструмент искусственного интеллекта EvolutionaryScale, называемый ESM3, — это то, что известно как модель языка белков. Он был обучен на более чем 2,7 миллиардах последовательностей и структур белков, а также информации о функциях этих белков. Модель может использоваться для создания белков по спецификациям, предоставленным пользователями, подобно тексту, выдаваемому чат-ботами, такими как ChatGPT.
«Это будет одна из моделей ИИ в биологии, на которую все обратят внимание», — говорит Энтони Гиттер, вычислительный биолог из Университета Висконсин-Мэдисон.
Светится вверх
Райвс и его коллеги работали над более ранними итерациями модели ESM в Meta, но в прошлом году ушли в отставку, после того как Meta завершила свою работу в этой области. Ранее они использовали модель ESM-2 для создания свободно доступной базы данных из 600 миллионов предсказанных структур белков1. С тех пор другие группы использовали версии ESM-1 для разработки антител с улучшенной активностью против патогенов, включая SARS-CoV-2.2 и реконструировать белки «анти-CRISPR» для повышения эффективности инструментов редактирования генов3.
В этом году еще одна компания, занимающаяся разработкой биологического ИИ, Profluent из Беркли, Калифорния, использовала собственную модель языка белков для создания новых белков редактирования генов на основе CRISPR и сделала одну такую молекулу доступной для свободного использования.
Чтобы продемонстрировать свою последнюю модель, команда Райвса решила пересмотреть еще одну рабочую лошадку биотехнологии: зеленый флуоресцентный белок (GFP), который поглощает синий свет и светится зеленым. Исследователи выделили GFP в 1960-х годах из биолюминесцентной медузы Равная победа. Более поздняя работа, которая, вместе с открытием, была отмечена Нобелевской премией, показала, как GFP может маркировать другие белки, рассматриваемые под микроскопом, объяснила молекулярную основу его флуоресценции и разработала синтетические версии белка, которые светились гораздо ярче и разными цветами.
С тех пор исследователи идентифицировали другие флуоресцентные белки похожей формы, все из которых разделяют поглощающее и испускающее свет ядро «хромофора», окруженное бочкообразным каркасом. Команда Райвса попросила ESM3 создать примеры GFP-подобных белков, которые содержали бы набор ключевых аминокислот, обнаруженных в хромофоре GFP.
Исследователи синтезировали 88 наиболее перспективных дизайнов и измерили их способность флуоресцировать. Большинство из них были неудачными, но один дизайн, непохожий на известные флуоресцентные белки, слабо светился — примерно в 50 раз слабее, чем природные формы GFP. Используя последовательность этой молекулы в качестве отправной точки, исследователи поручили ESM3 улучшить ее работу. Когда исследователи сделали около 100 полученных дизайнов, некоторые из них были такими же яркими, как природные GFP, которые все еще значительно тусклее, чем варианты, созданные в лаборатории.
Один из самых ярких белков, разработанных ESM3, названный esmGFP, как предсказывают, имеет структуру, напоминающую структуру природных флуоресцентных белков. Однако его аминокислотная последовательность сильно отличается, совпадая менее чем на 60% с последовательностью наиболее близкородственного флуоресцентного белка в его обучающем наборе данных. В препринте, размещенном на сервере bioRxiv4Райвс и его коллеги утверждают, что, исходя из естественной скорости мутаций, этот уровень разницы в последовательностях соответствует «более чем 500 миллионам лет эволюции».
Но Гиттер беспокоится, что это сравнение — бесполезный и потенциально вводящий в заблуждение способ описания продукта передовой модели ИИ. «Это звучит страшно, когда вы думаете об ИИ и ускорении эволюции», — говорит он. «Я чувствую, что чрезмерная шумиха вокруг того, что делает модель, может навредить отрасли и может быть опасной для общественности.
Ривс рассматривает генерацию новых белков ESM3 путем итерации через различные последовательности как аналог эволюции. «Мы думаем, что перспектива того, что потребовалось бы природе, чтобы создать что-то подобное, интересна», — добавляет он.
Порог риска
ESM-3 входит в число первых биологических моделей ИИ, использующих достаточно вычислительной мощности во время обучения, чтобы потребовать от разработчиков уведомить правительство США и сообщить о мерах по снижению рисков в соответствии с президентским указом 2023 года. EvolutionaryScale сообщает, что уже связалась с Управлением по политике в области науки и технологий США.
Могут ли белки, созданные с помощью искусственного интеллекта, стать оружием? Ученые излагают правила безопасности
Версия ESM3, которая превзошла этот порог — включающая почти 100 миллиардов параметров или переменных, которые модель использует для представления взаимосвязей между последовательностями — не является общедоступной. Для меньшей версии с открытым исходным кодом некоторые последовательности, такие как последовательности вирусов и списка тревожных патогенов и токсинов правительства США, были исключены из обучения. ESM3-open — который ученые в любой точке мира могут загрузить и запустить независимо — также не может быть побужден к генерации таких белков.
Мартин Пачеса, структурный биолог из Швейцарского федерального технологического института в Лозанне, рад начать работу с ESM3. Это одна из первых биологических моделей, позволяющая исследователям определять проекты с использованием описаний ее свойств и функций на естественном языке, отмечает он, и ему не терпится увидеть, как эта и другие функции работают экспериментально.
Пачеса впечатлен тем, что EvolutionaryScale выпустила версию ESM3 с открытым исходным кодом и четкое описание того, как обучалась самая большая версия. Но для независимой разработки самой большой модели потребуются огромные вычислительные ресурсы, говорит он. «Ни одна академическая лаборатория не сможет ее повторить».
Райвс горит желанием применить ESM-3 к другим разработкам. Пачеса, который был частью команды, использовавшей другую модель языка белков для создания новых белков CRISPR, говорит, что будет интересно посмотреть, как ESM-3 справится с этим. Райвс видит применение в области устойчивого развития — видео на их веб-сайте показывает разработку ферментов, поедающих пластик, — а также в разработке антител и других препаратов на основе белков. «Это действительно передовая модель», — говорит он.