CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве
VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение состояния — иногда это перемещение его в трехмерном пространстве.
Добавление VLA-моделей в этот сегмент робототехники может дать устройствам способность мыслить и принимать решения в условиях слабой связи или полной автономности. Такой подход особенно важен для задач, где нет права на ошибку, например в спасательных миссиях.
Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. Параллельно работе — аспирант в лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Сегодня расскажу, как в рамках научной работы вместе с коллегами по лаборатории мы обучили OpenVLA и создали CognitiveDrone — первую VLA-модель для летающих роботов. А также объясню, зачем мы внедрили модуль VLM и за счет чего он помог повысить качество решения когнитивных задач на 17,6%.
Читать далее