Вся жизнь на Земле записана четырьмя «буквами» ДНК. ИИ просто использовал эти буквы, чтобы с нуля создать совершенно новый геном.
Называется ЭвоИИ был вдохновлен большими языковыми моделями (LLM), лежащими в основе популярных чат-ботов, таких как ChatGPT OpenAI и Claude от Anthropic. Эти модели покорили мир своим умением генерировать реакции, подобные человеческим. От простых задач, таких как определение непонятного слова, до обобщения научных статей или написания стихов, подходящих для рэп-баттла, LLM вошли в нашу повседневную жизнь.
Если студенты магистратуры могут освоить письменные языки, смогут ли они сделать то же самое с языком жизни?
В этом месяце команда из Стэнфордского университета и Института дуги проверила эту теорию. Вместо того, чтобы обучать Evo на контенте, взятом из Интернета, они обучили ИИ почти трем миллионам геномов — составляющих миллиарды строк генетического кода — различных микробов и вирусов, заражающих бактерии.
Evo лучше предыдущих моделей ИИ предсказывал, как мутации генетического материала — ДНК и РНК — могут изменить функцию. ИИ также проявил творческий подход, придумав несколько новых компонентов для инструмента редактирования генов CRISPR. Еще более впечатляюще то, что ИИ создал геном длиной более мегабазы — примерно такой же, как у некоторых бактериальных геномов.
«В целом, Evo представляет собой модель геномной основы», написал Кристина Теодорис из Института Гладстона в Сан-Франциско, которая не участвовала в работе.
Изучив геномный словарь, такие алгоритмы, как Evo, могли бы помочь ученым исследовать эволюцию, расшифровать внутреннюю работу наших клеток, разгадать биологические загадки и ускорить синтетическую биологию, создавая новые сложные биомолекулы.
Мультивселенная ДНК
По сравнению с 26 буквами английского алфавита, ДНК состоит только из A, T, C и G. Эти «буквы» обозначают четыре молекулы — аденин (А), тимин (Т), цитозин (С) и гуанин (G). ) — в совокупности это и определяет наши гены. Если студенты магистратуры смогут покорить языки и создать новую прозу, переписать генетический справочник всего из четырех букв будет проще простого.
Не совсем. Человеческий язык состоит из слов, фраз и разделен на предложения для передачи информации. ДНК, напротив, более непрерывна, а генетические компоненты сложны. Одни и те же буквы ДНК несут «параллельные нити информации», писал Теодорис.
Наиболее известной является роль ДНК как генетического носителя. Определенная комбинация трех букв ДНК, называемая кодоном, кодирует строительный блок белка. Они объединены в белки, из которых состоят наши ткани и органы и управляют внутренней работой наших клеток.
Но одна и та же генетическая последовательность, в зависимости от ее структуры, может также рекрутировать молекулы, необходимые для превращения кодонов в белки. А иногда одни и те же буквы ДНК могут превращать один ген в разные белки в зависимости от состояния клетки и окружающей среды или даже отключать ген.
Другими словами, буквы ДНК содержат огромное количество информации о сложности генома. Любые изменения могут поставить под угрозу функцию белка, что приведет к генетическим заболеваниям и другим проблемам со здоровьем. Поэтому для ИИ крайне важно работать с разрешением отдельных букв ДНК.
Но ИИ сложно собрать несколько потоков информации в больших масштабах, анализируя только генетические буквы, отчасти из-за высоких вычислительных затрат. Как и древнеримские письмена, ДНК представляет собой набор букв без четкой пунктуации. Таким образом, может потребоваться «прочитать» целые нити, чтобы получить общее представление об их структуре и функциях, то есть расшифровать значение.
Предыдущий попытки иметь «связывал» буквы ДНК в блоки — это немного похоже на создание искусственных слов. Хотя эти методы проще в обработке, они нарушают непрерывность ДНК, что приводит к сохранению «одних потоков информации за счет других», — писал Теодорис.
Строительство фундаментов
Evo решил эти проблемы вплотную. Его разработчики стремились сохранить все потоки информации, работая при этом с разрешением в одну букву ДНК и меньшими вычислительными затратами.
Хитрость заключалась в том, чтобы дать Evo более широкий контекст для любого фрагмента генома, используя определенный тип настройки ИИ используется в семействе алгоритмов StripedHyena. По сравнению с GPT-4 и другими моделями искусственного интеллекта, StripedHyena спроектирована так, чтобы быстрее и лучше обрабатывать большие входные данные, например, длинные отрезки ДНК. Это расширило так называемое «окно поиска» Evo, позволив ему лучше находить закономерности в более обширном генетическом ландшафте.
Затем исследователи обучили ИИ на базе данных, содержащей почти три миллиона геномов бактерий и вирусов, которые заражают бактерии, известные как фаги. Он также извлек уроки из плазмид — кольцевых фрагментов ДНК, часто встречающихся у бактерий, которые передают генетическую информацию между микробами, стимулируя эволюцию и закрепляя устойчивость к антибиотикам.
После обучения команда сравнила Evo с другими моделями искусственного интеллекта, чтобы предсказать, как мутации в данной генетической последовательности могут повлиять на функцию этой последовательности, например, на кодирование белков. Несмотря на то, что никогда не было сказано, какие генетические буквы образуют кодоны, Evo превзошел модель искусственного интеллекта, специально обученную распознавать буквы ДНК, кодирующие белки, при выполнении этой задачи.
Примечательно, что Эво также предсказал влияние мутаций на широкий спектр молекул РНК, например, на те, которые регулируют экспрессию генов, доставляют строительные блоки белка на фабрику по производству белка в клетке и действуют как ферменты для точной настройки функции белка.
Эво, похоже, обрел «фундаментальное понимание грамматики ДНК», писал Теодорис, что сделало ее идеальным инструментом для создания «значимого» нового генетического кода.
Чтобы проверить это, команда использовала ИИ для разработки новых версий инструмента редактирования генов CRISPR. Задача особенно сложна, поскольку система содержит два элемента, которые работают вместе — направляющую молекулу РНК и пару белковых «ножниц» под названием Cas. Evo создал миллионы потенциальных Cas-белков и сопровождающих их направляющих РНК. Команда выбрала 11 наиболее многообещающих комбинаций, синтезировала их в лаборатории и проверила их активность в пробирках.
Один выделялся. Вариант Cas9, белок, разработанный искусственным интеллектом, расщепляет свою ДНК-мишень в сочетании с направляющей РНК-партнером. Эти дизайнерские биомолекулы представляют собой «первые примеры» кодирования белков и ДНК или РНК с языковой моделью, пишет команда.
Команда также попросила Эво создать последовательность ДНК, аналогичную по длине геномам некоторых бактерий, и сравнила результаты с природными геномами. Созданный геном содержал некоторые важные гены для выживания клеток, но с множеством неестественных характеристик, не позволяющих ему функционировать. Это говорит о том, что ИИ может создать только «размытое изображение» генома, которое содержит ключевые элементы, но не имеет более мелких деталей, пишет команда.
Как и другие LLM, Evo иногда «галлюцинирует», извергая системы CRISPR без шансов на работу. Несмотря на проблемы, ИИ предполагает, что будущие LLM смогут предсказывать и генерировать геномы в более широком масштабе. Этот инструмент также может помочь ученым изучить долгосрочные генетические взаимодействия в микробах и фагах, потенциально способствуя пониманию того, как мы можем перепрограммировать их геномы для производства биотоплива, насекомых, питающихся пластиком, или лекарств.
Пока неясно, сможет ли Эво расшифровать или создать гораздо более длинные геномы, например, у растений, животных или человека. Однако, если модель сможет масштабироваться, она «будет иметь огромные диагностические и терапевтические последствия для болезней», — написал Теодорис.
Кредит изображения: Уоррен Умо на Unsplash