Компания Microsoft представила мультимодальную ИИ-модель под названием Kosmos-1, которая может анализировать содержание изображений и делать подписи к ним, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ (пока с точностью от 22 до 26%) и понимать команды на естественном языке.
По словам компании, создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — это ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей. Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнера Microsoft в сфере ИИ.
Проект Kosmos-1 Microsoft разработал без участия OpenAI. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Прежде чем ИИ-модель сможет прочитать изображение, исследователям необходимо перевести его в специальную серию текстовых «токенов». В дальнейшем текст и другие элементы обрабатываются специальным декодером.
Для обучения Kosmos-1 использовались данные интернета, включая выдержки из The Pile и Common Crawl. Разработчики оценили способности модели по нескольким тестам, включая понимание и генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, визуальный ответ на вопрос, а также классификацию изображений с нулевым кадром. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей. В будущем ученые хотят добавить в ИИ-модель функцию синтеза речи.
Microsoft планирует в ближайшее время открыть доступ к модели Kosmos-1 для сторонних разработчиков.
Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az
The post Microsoft представил ИИ-модель Kosmos-1, которая решает головоломки и сдает IQ-тесты appeared first on InfoCity.