Эта статья описывает разработку Базисной модели интерактивного агента.
Интерактивные агенты описываются как: "интеллектуальный агент, способный автономно принимать подходящие действия на основе сенсорной информации, будь то в физическом мире или в виртуальной или смешанной реальности, представляющей физический мир". Для примера приведен робот, которого вытащили из коробки и он может сразу адаптироваться к выполнению бытовых задач в домашней среде.
Новый подход включает обучение одной нейронной модели на множестве задач и модальностей данных, используя достижения в области универсальных основных моделей. Она представляет собой переход от статичных, специфичных для задач систем ИИ к более адаптируемым и универсальным агентам.
Модель работает с тремя типами данных - текст, визуальные данные и действия. Таким образом, каждый входной образец содержит текстовые инструкции, видео и токены действий. Они обозначают каждый образец как последовательность S = (W,V1,A1,V2,A2,...,VT,AT), где W - это последовательность токенов, соответствующих текстовой инструкции, Vi - это последовательность патчей изображений, соответствующих кадру i, а Ai - это последовательность токенов действий, соответствующих кадру i видеопоследовательности из T кадров.
Базисная модель обучена на 13,4 миллионах видеокадров под несколько типов сред, может эффективно работать в интерактивных мультимодальных настройках, используя текст, видео, изображения, диалоги, подписи, визуальное ответ на вопросы и воплощенные действия в четырех различных виртуальных средах. Всего модель имеет 277 миллионов параметров.