Абстрактный
Вся жизнь кодирует информацию с ДНК. В то время как инструменты для секвенирования, синтеза и редактирования геномного кода трансформировали биологические исследования, интеллектуальное составление новых биологических систем также потребует глубокого понимания огромной сложности, кодируемой геномами. Мы вводим Evo 2, модель биологического основания, обученную на 9,3 триллиона ДНК -основания из высоко кураторских геномных атласов, охватывающих все домены жизни. Мы тренируем EVO 2 с параметрами 7B и 40B, чтобы иметь беспрецедентное окно токенового контекста 1 миллиона с разрешением с одним нуклеотидом. EVO 2 учится только из последовательности ДНК, чтобы точно прогнозировать функциональные воздействия генетических вариаций-от некодирующих патогенных мутаций на клинически значимые варианты BRCA1-без задачи, специфичное для задачи. Применяя механистический анализ интерпретации, мы показываем, что EVO 2 автономно изучает широту биологических особенностей, включая границы экзон-интрона, сайты связывания транскрипционных факторов, белковые структурные элементы и геномные области профага. Помимо своих прогнозных возможностей, Evo 2 генерирует митохондриальные, прокариотические и эукариотические последовательности в масштабе генома с большей естественностью и когерентностью, чем предыдущие методы. Руководство EVO 2 с помощью поиска времени вывода позволяет управлять генерацией эпигеномной структуры, для которой мы демонстрируем первое масштабирование времени вывода в биологии. Мы делаем Evo 2 полностью открытым, включая параметры модели, код обучения, код вывода и набор данных OpenGenome2, чтобы ускорить разведку и проектирование биологической сложности.
Заявление о конкурирующих интересах
MGD признает внешний интерес к стилусу. MP — сотрудник Liquid AI. CR признает внешний интерес к фабрике и Google Ventures. DPB признает внешний интерес как консультант Google. HG признает внешний интерес в качестве соучредителя Exai Bio, Vevo Therapeutics и Therna Therapeutics, служит в совете директоров Exai Bio и является членом научного консультативного совета по геномике Verge и глубоководной биологии. PDH признает внешний интерес в качестве соучредителя Trand Biosciences, Stylus Medicine и Spotlight Therapeutics, служит в совете директоров в Stylus Medicine, является наблюдателем за EvolutionaryScale и Terrain Biosciences, членом научного консультативного совета в Arbor Biosciences and Veda, члене научного консультативного совета в Arbor Biosciences и Veda. Био и советник NFDG, Varda Space и Health. BLH признает внешний интерес к Prox Biosciences как научный соучредитель. Все остальные авторы не заявляют о конкурирующих интересах.