Достижения в проектировании белковых последовательностей: использование моделей обучения с подкреплением и языка

Проектирование белковой последовательности имеет решающее значение в белковой инженерии для открытия лекарств. Традиционные методы, такие как эволюционные стратегии и моделирование Монте-Карло, часто нуждаются в помощи для эффективного исследования обширного комбинаторного пространства аминокислотных последовательностей и обобщения для новых последовательностей. Обучение с подкреплением предлагает многообещающий подход путем изучения политик мутаций для создания новых последовательностей. Недавние достижения в моделях белкового языка (PLM), обученные на обширных наборах данных белковых последовательностей, предоставляют еще один путь. Эти модели оценивают белки на основе биологических показателей, таких как оценка TM, помогая в проектировании белков и прогнозировании сворачивания. Они необходимы для понимания клеточных функций и ускорения усилий по разработке лекарств.

Исследователи из Университета Макгилла, Института искусственного интеллекта Мила-Квебек, ÉTS Montréal, Университета BRAC, Бангладешского университета инженерии и технологий, Университета Калгари, кафедры искусственного интеллекта CIFAR и Dreamfold предлагают использовать PLM в качестве функций вознаграждения для генерации новых последовательностей белков. Однако PLM могут быть вычислительно интенсивными из-за своего размера. Чтобы решить эту проблему, они вводят альтернативный подход, в котором оптимизация основана на оценках из меньшей прокси-модели, периодически настраиваемой вместе с политиками мутаций обучения. Их эксперименты с различными длинами последовательностей показывают, что подходы на основе RL достигают благоприятных результатов биологической правдоподобности и разнообразия последовательностей. Они предоставляют реализацию с открытым исходным кодом, облегчающую интеграцию различных PLM и алгоритмов исследования, направленную на продвижение исследований в области проектирования последовательностей белков.

Были изучены различные методы проектирования биологических последовательностей. Эволюционные алгоритмы, такие как направленная эволюция и AdaLead, фокусируются на итеративной мутации последовательностей на основе показателей производительности. Стратегия эволюции адаптации ковариационной матрицы (CMA-ES) генерирует последовательности-кандидаты с использованием многомерного нормального распределения. Проксимальное исследование (PEX) способствует выбору последовательностей, близких к дикому типу. Методы обучения с подкреплением, такие как DyNAPPO, оптимизируют суррогатные функции вознаграждения для генерации разнообразных последовательностей. Составы образцов GFlowNets пропорциональны их функциям вознаграждения, что облегчает различные конечные состояния. Генеративные модели, такие как дискретная диффузия и потоковые модели, такие как FoldFlow, генерируют белки в пространстве последовательностей или структур. Байесовская оптимизация адаптирует суррогатные модели для оптимизации последовательностей, решая многоцелевые задачи проектирования белков. MCMC и байесовский подход выбирают последовательности на основе энергетических моделей и прогнозов структуры.

ЧИТАТЬ  Пространственные вычисления расширяют реальность в проектировании, AEC и производстве - Engineering.com

В области проектирования белковых последовательностей с использованием RL задача моделируется как процесс принятия решений Маркова (MDP), где последовательности мутируют на основе действий, выбранных политикой RL. Последовательности представлены в формате one-hot encoded, а мутации включают выбор позиций и замену аминокислот. Вознаграждения определяются путем оценки структурного сходства с использованием либо дорогой модели оракула (ESMFold), либо более дешевой прокси-модели, периодически настраиваемой с истинными оценками от оракула. ​​Критерии оценки сосредоточены на биологической правдоподобности и разнообразии, оцениваемых с помощью таких метрик, как оценка моделирования шаблонов (TM) и тест на локальные различия расстояний (LDDT), а также меры последовательности и структурного разнообразия.

Различные алгоритмы проектирования последовательностей были оценены с использованием оценок pTM ESMFold в качестве основной метрики в проведенных экспериментах. Результаты показали, что такие методы, как MCMC, преуспели в прямой оптимизации pTM, в то время как методы RL и GFlowNets продемонстрировали эффективность за счет использования прокси-модели. Эти методы поддерживали высокие оценки pTM, значительно снижая вычислительные затраты. Однако производительность MCMC снижалась при тонкой настройке с помощью прокси, возможно, из-за попадания в неоптимальные решения, согласованные с прокси-моделью, но не с ESMFold. В целом, методы RL, такие как PPO и SAC, наряду с GFlowNets, показали надежную производительность по показателям биологической правдоподобности и разнообразия, доказав свою адаптивность и эффективность для задач генерации последовательностей.

Результаты исследования ограничены вычислительными ограничениями для более длинных последовательностей и зависимостью от модели proxy или 3B ESMFold для оценки. Неопределенность или несоответствие в модели вознаграждения добавляют сложности, требуя будущих исследований с другими PLM, такими как AlphaFold2 или более крупными вариантами ESMFold. Масштабирование до более крупных моделей proxy может повысить точность для более длинных последовательностей. Хотя исследование не предвидит неблагоприятных последствий, оно подчеркивает потенциальное неправильное использование PLM. В целом, эта работа демонстрирует эффективность использования PLM для разработки политик мутаций для генерации последовательностей белков, демонстрируя глубокие алгоритмы RL как надежных претендентов в этой области.

ЧИТАТЬ  Как построить дом на сваях своими руками: подробная инструкция

Проверьте Бумага. Все заслуги в этом исследовании принадлежат исследователям этого проекта. Также не забудьте подписаться на нас Твиттер.

Присоединяйтесь к нашему Телеграм-канал и LinkedIn Грууп.

Если вам нравится наша работа, вам понравится и наше Новостная рассылка..

Не забудьте присоединиться к нашему 46 тыс.+ ML SubReddit


Достижения в проектировании белковых последовательностей: использование моделей обучения с подкреплением и языка

Сана Хассан, консультант-стажер в Marktechpost и студент двойного диплома в IIT Madras, увлечен применением технологий и ИИ для решения реальных проблем. С живым интересом к решению практических проблем он привносит свежий взгляд на пересечение ИИ и реальных решений.



Source

Оцените статью
( Пока оценок нет )
Строительство. Ремонт. Садоводство