Вопрос обучения роботов на сегодняшний день является одним из самых актуальных для специалистов, работающих в этой области. Учёные Массачусетского технологического института (MIT) предложили новый метод обучения, который отличается от существующих тем, что вместо стандартного набора информации он задействует огромные массивы данных, имитируя процесс обучения больших языковых моделей (LLM).
Авторы разработки уверены, метод обучения, когда робототехника учится на примере человека, является крайне неэффективным даже при существенном изменении окружения. Так, например, в работе робота могут проявиться проблемы даже в том, случае, если немного изменить объект, с которым он взаимодействует. Тоже самое произойдёт и при изменении освещения.
Чтобы сделать обучение более эффективным, учёные обратились к разным языковым моделям, включая GPT-4, задействуя метод перебора данных:
«В языковой области все данные — это просто предложения. В робототехнике, учитывая всю неоднородность данных, если вы хотите провести предварительную подготовку аналогичным образом, нам нужна другая архитектура», — пояснил Лируй Ван, один из авторов работы.
Команда представила новую архитектуру под названием Heterogeneous Pretrained Transformers (HPT), которая собирает информацию с разных датчиков и из разных сред. Эта информация с помощью «трансформера» объединяется в обучающие модели. В итоге пользователю достаточно будет указать конфигурацию робота и навык, которому его надо обучить.
«Наша мечта — создать универсальный мозг робота, который можно было бы загрузить в любое устройство и использовать без предварительной подготовки и настройки. И хотя мы находимся на ранних этапах своего проекта, мы продолжаем работать будучи уверены, что масштабирование приведёт к прорыву в роботехнической отрасли, как это когда-то случилось с большими языковыми моделями», — пояснили в MIT.