«Сегодня мы можем для всех практических целей читать, писать и редактировать любую последовательность ДНК, но мыNNOT СОКАЗАТЬ ЭТОПолем Может быть, мы можем вырезать и вставлять кусочки из природных композиций, но мы не знаем, как написать стержни для одного ферментативного отрывка. Однако эволюция. —Фрэнсис Арнольд, доктор философии (Лекция Нобелевской премии 2018)
Эво, Модель фонда генома, разработанная Институтом ARC Опубликовано в ноябре прошлого года это обобщает языки биологии — ДНК, РНК и белки как для прогнозирующих, так и для генеративных возможностей — получил крупное обновление.
В новом препринте, который еще не рецензируется и Впервые опубликовано на сайте ARCEvo 2 выходит за рамки одноклеточных геномов бактерий и археи, чтобы включить информацию от людей, растений и других более сложных одноклеточных и многоклеточных видов в эукариотическом домене жизни.
Полученные в результате применение применения в области исследований охватывают множество научных областей, включая обнаружение лекарств, сельское хозяйство, промышленные биотехнологии и материальные науки. Мультимодальная и многомасштабная работа — это сотрудничество с Nvidia, а также участники Стэнфордского университета, Калифорнийского университета в Беркли и Калифорнийского университета в Сан -Франциско.
«Рецепт жизни полностью присутствует в генетической информации, содержащейся в нашей ДНК», — сказала Кимберли Пауэлл, вице -президент по здравоохранению в NvidiaПолем «Мы ищем более глубокое понимание биологической сложности. Эволюция решила эту проблему в течение миллионов лет, и Evo 2 стремится учиться на этом знании ».
В здравоохранении понимание того, какие варианты генов связаны с болезнью, является бесценным инструментом для терапии. Ранняя проверка возможностей Evo 2 показала, что модель может идентифицировать, как генетические мутации влияют на белок, РНК и организм. В тестах с вариантами BRCA1, геном, связанным с риском рака молочной железы и яичника, EVO 2 достиг более 90% точность в прогнозировании, какие мутации являются доброкачественными по сравнению с заболеванием.
Патрик Хсу, доктор философии, соучредитель Института ARC и доцент кафедры биоинженерии в Калифорнийском университете в Беркли, заявил, что Evo 2 — единственная модель, которая может предсказать влияние как кодирующих, так и некодирующих мутаций.
«Это вторая лучшая модель для кодирующих мутаций, но она является современным для некодирующих мутаций, которые другие методы прогнозирования эффекта варианта, такие как Альфамиссенс От DeepMind не может забить », — сказал Хсу.
HSU также назвал Evo 1 как «размытую картину одноклеточной жизни», потому что она была обучена корпусу из 300 миллиардов нуклеотидов, полученных из прокариотических геномов. Команда «хотела быть гораздо более амбициозной» в этом сотрудничестве с Nvidia.
Evo 2 была построена на облачной платформе NVIDIA DGX и обучена более чем 9,3 триллионам нуклеотидов из геномов более 128 000 видов по всему дереву жизни. Модель использует новую архитектуру под названием StripedHyena 2, которая позволила обучать, которая была «почти в три раза быстрее, чем оптимизированные модели трансформаторов», по словам доктора философии Дейва Берка, доктора философии, директора по технологиям ARC Institute. Модель также имеет 40 миллиардов параметров и аналогична масштабам с текущим поколением крупных языковых моделей, выпущенных из Meta, DeepMind или OpenAI.
Evo 2 может обрабатывать последовательности ДНК сразу до 1 миллиона нуклеотидов, позволяя ему понять взаимосвязь между отдаленными частями генома. HSU заявил, что эта длинная длина контекста разблокирует несколько молекулярных шкал, от коротких биологических молекул, таких как тРНК или кластеры генов (например, оперонов), до целых бактериальных геномов или эукариотических хромосомов.
ARC Institute и NVIDIA описывают EVO 2 как «крупнейшую общедоступную модель искусственного интеллекта для биологии на сегодняшний день». Evo 2 доступен для общественного использования на Платформа Nvidia Bionemo и как интерактивный пользовательский интерфейс под названием Evo Designer. Кроме того, авторы сделали свои учебные данные, код обучения и вывода, а также веса модели открытый исходный кодПолем
Biology's App Store
Понимание биологии как «языка» не является новой концепцией. АDvance в секвенировании генома позволили нам «читать» человеческий геном, в то время как изобретение технологии CRISPR расширило наш набор инструментов до гена «редактирование».
В 2023 году HSU и Брайан Хи, доктор философии, доцент кафедры химической инженерии в Стэнфордском университете, начали думать о разработке или «писательстве» биологических последовательностей, включая белки, начиная с основополагающего слоя самой ДНК. «В конце концов, сами белки кодируются непосредственно геномом», — подчеркнул HSU.
«Машинное обучение начало революционизировать биологию, и такие модели, как Алфафолд или Эсмфол включено прогноз и дизайн структуры белка. Несмотря на эти достижения, сложность этих молекул затмевается общей сложностью всей клетки », — продолжил HSU.
Учитывая, что биологические функции не выполняются с помощью одной молекулы белка в изоляции, построение синтетических геномов может обеспечить ценный инструмент исследования для исследования более широкого биологического контекста, подвиг, который Evo 2 занимается лоб.
«А. Много биологического дизайна до сих пор была сосредоточена на молекулярном уровне, потому что это все, что мы могли бы контролировать. Если у нас есть мощная модель, которая позволяет нам генерировать в масштабах полных организмов, то это разблокирует множество нисходящих задач [with a wide array of use cases]- сказал Хи.
Предварительный раствор Evo 2 описал три задачи дизайна, которые охватывают различные уровни геномной сложности: 1) митохондриальный геном 2) прокариотический геном Микоплазма гениталииОбычно используемая модель минимального генома и 3) дрожжевой хромосомы, которая представляет эукариотические организмы.
Для всех трех задач проектирования препринт показал доказательства, подтверждающие когерентность генома, такие как конструкция генов, которые кодируют все компоненты цепи транспорта электронов (как предсказано Alphafold 3) в случае генома митохондриального и присутствия Природные гомологи и более сложная геномная архитектура, такая как интроны, в случае дрожжевой хромосомы.
Прекрата также представил рабочий процесс для «генеративной эпигеномики», который разработал последовательности ДНК с желаемыми профилями доступности хроматина для моделирования регуляции эукариотических генов.
Когда его спросили о планах экспериментальной проверки, HIE заявил, что сотрудничество с большими экспертами по синтезу и сборке ДНК из Университета Вашингтона ведется для того, чтобы вставить конструкции доступности хроматина в мышиные ячейки для проверки.
Заглядывая в будущее, Институт ARC заинтересован в том, чтобы опираться на эту биологическую сложность, построив виртуальную клетку.
«Узкое место для открытия наркотиков заключается в том, что мы не знаем, что вызывает с самого начала заболевания», — сказал Хи. «Если у нас есть очень способная модель генома, и мы соединяем это с информацией из окружающей среды посредством секвенирования РНК, регуляторных сетей генов и сети сигналов клеток, то эта комбинированная мультимодальная структура позволит нам ответить на эти фундаментальные вопросы о заболевании».
Hie рассматривает Evo 2 как «операционную систему» или основополагающий слой, который обеспечивает платформу для широкой генеративной функциональной геномики. Хотя Evo 2 «может не решать все вопросы в биологии», модель предлагает более широкую широту применимости по сравнению с предшественниками, специфичными для задачи, такими как алфафолд для прогнозирования структуры белка.
«Мы хотим расширить возможности исследовательского сообщества для создания на вершине этих моделей фонда. Вот почему мы приложили столько усилий с Nvidia, чтобы сделать этот полностью открытый исходный код », — взвесил HSU. «Мы действительно с нетерпением ждем того, как ученые и инженеры опираются на этот« магазин приложений »для биологии».
Фэй Лин, доктор философии, является старшим редактором Gen BiotechnologyПолем