Команда исследователей Нью-Йоркского университета провела уникальный эксперимент, обучив мультимодальную систему искусственного интеллекта (ИИ) через глаза и уши младенца. Были использованы видеозаписи и аудиофрагменты из повседневной жизни одного ребенка.
Эксперимент, описанный в последнем выпуске журнала Science, показал, что ИИ-модель может научиться множеству слов и концепций, используя всего лишь 1% от времени, которое ребенок проводит в бодрствующем состоянии.
В отличие от детей, получающих миллионы слов ежегодно, лучшие ИИ-системы обучаются на тексте с объемом в триллиона слов. Однако исследователи показали, что ИИ-модель, обученная с использованием небольших фрагментов повседневной жизни ребенка, способна значительно расширить наше понимание раннего языкового и концептуального развития.
Мультимодальная нейронная сеть была обучена по видеозаписям с легкой головной камерой, зафиксировавшей визуальные и звуковые впечатления ребенка с шести месяцев до двух лет. Результаты исследования демонстрируют, что ИИ может связывать слова с их визуальными образами, исходя из ограниченных данных о ежедневном опыте ребенка.