Придание структуры языку: модели искусственного интеллекта Profluent движутся к точному и управляемому проектированию белков

«Момент ChatGPT» для биологии продолжает раскрываться по мере того, как модели языка белков или инструменты машинного обучения, обученные на больших базах данных последовательностей белков, работают над расшифровкой языка жизни с целью создания новых белков для широкого применения в терапии, устойчивом развитии и т. д. Profluent, компания по разработке белков на основе искусственного интеллекта (ИИ) со штаб-квартирой в Беркли, штат Калифорния, сделала еще один шаг к достижению цели. управление этими моделями для решения конкретных функциональных задач с помощью управления на атомистическом уровне.

«Сейчас ведется большая работа по созданию основополагающих моделей для биологии в целом», сказал Али Мадани, доктор философии, генеральный директор Profluent, в интервью GEN-Edge. «Как нам обучить эти большие генеративные модели учиться на базовых закономерностях, которые предоставила нам природа?»

В препринт Опубликовано на bioRxiv, Profluent представляет новый метод, который теперь включает структурный и функциональный контекст в модели языка белков для условного проектирования. Подход, названный proseLM (модель языка, кодируемого структурой белка), был экспериментально подтвержден как эффективный для улучшения активности редактирования генов и аффинности связывания терапевтических антител, двух сложных задач функционального проектирования белков с широким применением в биотехнологических исследованиях.

«Мы отходим от методов, основанных на открытиях, и переходим к точному, управляемому контролю и преднамеренному проектированию для решения проблем, которые мы наблюдаем в современном обществе», — сказал Мадани.

Изображение разнообразного пространства последовательностей белков, полученное с помощью моделей языка белков, а затем объединенное со структурным и функциональным контекстом для проектирования с помощью proseLM. [Credit: Profluent]

Джеффри Руффоло, доктор философии, ведущий автор препринта proseLM и руководитель отдела дизайна белков в Profluent, сказал, что команда стремилась оценить, как proseLM соотносится с традиционными подходами, такими как направленная эволюция или ручная оптимизация в случае антител.

«Мы обнаружили, что даже с одним раундом оптимизации мы можем соответствовать некоторым из лучших редакторов баз. Для антител мы можем даже получить лучшее связывание, чем ниволумаб, «Это клинически одобренное терапевтическое антитело», — сказал Руффоло. GEN-Edge.

ЧИТАТЬ  Студенты-дизайнеры и Ballay Center вносят свой вклад в обновления Coulter Welcome Center

В proseLM структурная и функциональная информация, включая небелковые взаимодействия с нуклеиновыми кислотами, лигандами и ионами, вводится в предварительно обученную языковую модель через набор добавленных слоев, называемых адаптерами. Примечательно, что эти слои адаптеров имеют гораздо меньше параметров по сравнению с языковой моделью, что делает эти модели эффективными для обучения и запуска.

К более широким функциональным возможностям

Profluent начал работу с посевного раунда в размере 9 миллионов долларов США в 2023 году и получил дополнительное финансирование в размере 35 миллионов долларов США в 2024 году. Компания была основана на принципе ИИ как инструмента для расшифровки языка жизни с целью поддержки перехода парадигмы белковой инженерии от случайного открытия к преднамеренному проектированию. Мадани, который до основания Profluent руководил исследовательскими инициативами в области машинного обучения в Salesforce Research, подчеркивает эволюционный подход компании к проектированию белков, который изучает закономерности естественных последовательностей, эволюционировавших для выполнения схожих функций, для информирования пространства проектирования.

Profluent направил свою платформу проектирования на CRISPR и редактирование генов. В апреле компания продемонстрировала успешное точное редактирование с помощью программируемого редактора генов, разработанного с использованием ИИ, названного OpenCRISPR-1. OpenCRISPR-1 был выпущен публично для широкого и этичного использования в исследовательских и коммерческих приложениях. ProseLM теперь расширяет инструментарий Profluent от проектирования в рамках специализированных семейств белков до более широких функций.

Profluent — не единственный игрок, использующий языковые модели для проектирования белков. Ранее этим летом EvolutionaryScale, биологическая компания ИИ, основанная бывшими исследователями Meta AI, вышла из тени с посевным раундом в размере 142 миллионов долларов и объявила ЕСМ3языковая модель, которая, как показано, генерирует новый зеленый флуоресцентный белок (GFP), имеющий лишь 58% сходства с наиболее близким известным флуоресцентным белком.

ЧИТАТЬ  Планы по проектированию библиотеки Ларкспур будут обнародованы

Две стороны одной медали

Эволюционные подходы к проектированию белков контрастируют с методами, основанными на структуре, где дана структура белка, и цель состоит в том, чтобы найти последовательность, которая сворачивается в структуру. Алгоритмы проектирования, основанные на структуре, часто требуют явных инструкций для определения функции, что позволяет осуществлять более тонкую настройку управления.

«[In structure-based approaches]«Если вы хотите, чтобы белок связал цель, вам нужно выяснить, как именно будет выглядеть структура», — сказал Руффоло. «Это ограничивает возможности таких приложений, как редакторы генов, где есть эти большие белки, которые имеют много разных функций, которые им нужно выполнять последовательно».

Руффоло описывает оба подхода как «две стороны одной медали». В то время как одна сторона «читает» биологию, беря последовательность и определяя структуру, другая «пишет» биологию, создавая новый белок, который вписывается в определенный контекст.

«[With proseLM]«Мы можем взять под контроль подходы, основанные на структуре, и широкий спектр подходов, основанных на последовательности, чтобы взять лучшее из обоих миров», — продолжил Руффоло.

ProseLM — один из примеров продолжающегося движения в этой области от проектирования белков в вакууме к более широкой интеграции биологического контекста. В мае Google DeepMind в сотрудничестве с Isomorphic Labs опубликовали АльфаФолд 3 в Природа. Это обновление расширяет возможности предсказания известного алгоритма предсказания структуры белка от белков до широкого спектра биомолекулярных взаимодействий, включая ДНК, РНК, лиганды и многое другое. К разочарованию общественности, AlphaFold 3 был выпущен без открытого исходного кода и доступен только как веб-сервер с ограничениями в функциональности.

Мадани заявил, что proseLM оказался мощным инструментом в руках компании и станет сильным дополнением к инструментарию Profluent в будущем. Profluent выпускает proseLM для некоммерческого использования и с нетерпением ждет отзывов сообщества. С этим новым инструментом для написания языка биологии время покажет, какие приложения будут в следующей главе.

ЧИТАТЬ  Новости F1: Команды приветствуют значительные изменения в дизайне автомобилей 2026 года

Фэй Лин, доктор философии, старший редактор журнала Ген Биотехнология.



Source

Оцените статью
( Пока оценок нет )
Строительство. Ремонт. Садоводство