Meta MobileLLM совершенствует дизайн LLM для случаев использования на устройствах

Мета-исследователи стремятся МобильныйLLM амбициозен: показать, что качество меньших моделей не является прямым продуктом количества миллиардов параметров, которые они имеют; скорее, это результат тщательного проектирования их архитектуры. Чтобы доказать свою точку зрения, они объединили глубокую и тонкую архитектуру со встроенными механизмами совместного использования и группового запроса для создания 4 моделей с параметрами 125M, 350M, 600M и 1B, способных повысить точность по сравнению с предыдущими современными моделями.

MobileLLM отходит от общепринятого «закона масштабирования», приписываемого Каплану, который связывает повышение производительности с увеличением количества параметров.

Распространенное мнение (Каплан и др., 2020) в этой области предполагает, что производительность моделей трансформаторов в первую очередь определяется количеством параметров, размером набора обучающих данных и количеством обучающих итераций. […] Наши экспериментальные результаты, особенно для небольших моделей с ограниченной емкостью модели, показывают, что для повышения производительности более важно углубляться, чем расширяться.

Ранее использовался для Meta TinyLlama.Совместное использование встраивания — это метод, заключающийся в повторном использовании одних и тех же весов на входных и выходных слоях внедрения, что уменьшает общее количество весов и делает модель меньше. Как объясняют исследователи Meta, этот метод менее эффективен для более крупных моделей, где входные и выходные вложения составляют лишь минимальную часть общих параметров (например, 3,7% в LLaMA-70B). Напротив, для модели со 125 млн параметров на слои внедрения приходится более 20% параметров.

На 30-слойной модели с параметрами 125M:

совместное использование входных и выходных вложений уменьшает количество параметров на 16M, что составляет примерно 11,8% от общего числа параметров, при этом средняя точность снижается на 0,2 балла. Предельное падение точности можно легко восстановить, перераспределив сохраненные параметры и добавив больше слоев.

Еще один метод, направленный на максимальное использование веса, — это немедленное распределение веса по блокамгде веса реплицируются между соседними блоками. Это приводит к уменьшению задержки без значительного увеличения размера модели и может быть особенно актуально, по словам исследователей, в сценариях, где основным фактором, определяющим задержку модели, является перемещение памяти.

ЧИТАТЬ  Уютология: Создаем комфортное пространство для продуктивного падения - INMYROOM

Используя эти и другие методы, MobileLLM стремится определить надежный базовый подход к разработке оптимизированных моделей меньшего размера. Мета-исследователи провели ряд экспериментов, чтобы сравнить MobileLLM с предыдущими современными моделями с субмиллиардными параметрами для ряда задач, включая нулевое рассуждение на основе здравого смысла, ответы на вопросы и понимание прочитанного. Например, в рассуждениях с нулевым выстрелом

MobileLLM-LS-125M достигает сопоставимых или даже более высоких результатов, чем большинство предыдущих моделей 350M. В категории размеров моделей 350M MobileLLM превосходит предыдущие современные модели более чем на 4 пункта при сопоставимых или меньших размерах моделей.

Аналогичные результаты наблюдаются в задачах на ответы на вопросы и на понимание прочитанного.

Мета-исследователи говорят, что существует растущая потребность в больших языковых моделях на мобильных устройствах для снижения затрат на облако и задержек. Они также подчеркивают рост потребления энергии и выбросов углекислого газа более крупными LLM и выступают за необходимость сокращения LLM, чтобы сделать их более экологически чистыми. По их словам, переход к моделям на устройстве может быть ответом на эти проблемы, а также улучшить производительность модели за счет сокращения задержек.

MobileLLM доступен на Hugging Face.



Source

Оцените статью
( Пока оценок нет )
Строительство. Ремонт. Садоводство