Игры, в которые играют не-люди: как добавить ИИ ума

23.07.2024 08:30

Несмотря на все успехи искусственного интеллекта, поймать его на отсутствии собственно интеллекта иногда несложно – достаточно, например, чат-боту задавать вопросы об одном и том же, но с разной формулировкой. Вероятность, что ответы будут разные не только по форме, но и по содержанию, отнюдь не мала. И это создает проблему надежности получаемой информации, а также позволяет обходить этические ограничения. Новым решением, способным радикально изменить ситуацию, могут оказаться игры.

Играющий компьютер сам по себе не новость – с матча, в котором IBM Deep Blue победил в шахматы многократного чемпиона мира, прошло почти тридцать лет. За это время машины превзошли человека в шашках, го, покере на двоих и других играх «с нулевой суммой», где победа одного означает поражение другого. Но намного более сложной задачей для машины являются игры типа «Дипломатии», где самостоятельной игры недостаточно – для успеха здесь необходимо понимать мотивы и перспективы других участников и вести с ними переговоры для координации общих планов, которые могут быть нарушены любым из них и в любой момент.

Тем не менее, в 2022 году ИИ-программа «Цицерон» смогла за 40 игр набрать балл, вдвое больший, чем у среднестатистического участника-человека, и войти в топ лучших. Занятый в этом проекте, аспирант Массачусетского технологического института (MIT) Атул Пол Джейкоб отметил поразительную вещь: для создания диалога с другими игроками программа опиралась на языковую модель. Это и натолкнуло на мысль создать такую игру, которая повысит надежность больших языковых моделей (LLM), например, сделав их ответы внутренне более непротиворечивыми.

Идея, положенная в основу, заключается в том, чтобы рассматривать разговор двух людей как игру, успех в которой достигается, если слушающий понимает мысль говорящего. Так, появилась консенсусная игра, в которой две подсистемы LLM – генератор и дискриминатор – ищут взаимно согласованный ответ. Процесс выглядит так: генератор получает вопрос, например, «какой город является столицей Франции?». А также несколько вариантов ответа, допустим, Париж, Лион, Марсель. Источником вопросов и ответов может быть как человек, так и заранее составленный список, кроме того, варианты ответов машина может искать в интернете сама. При этом генератору предварительно сообщается, что «честность» ответа зависит от брошенной монетки. Если выпадет орел – надо дать правильный ответ, если решка – неправильный.

Таким образом, в первом случае генератор отправляет дискриминатору исходный вопрос с ответом, который считает правильным. И, если дискриминатор решает, что полученный им ответ был намеренно правильным, каждая из подсистем в качестве поощрения получает по баллу. Во втором случае генератор отправляет ответ, который считает неправильным, и если дискриминатор находит, что ответ намеренно неправильный, обе подсистемы снова получают по баллу.

При этом изначально у генератора и дискриминатора есть определенные «убеждения», связанные со степенью вероятности тех или иных вариантов. Например, на основе информации, полученной из интернета, генератор может считать, что Париж является столицей Франции с вероятностью в 85%, а Лион и Марсель – с вероятностью в 5%, и такая же вероятность есть у других вариантов. У дискриминатора может быть иной расклад, например, 50% у Парижа и 50% у любого другого варианта.

Однако, несмотря на поощрение согласованных вариантов, подсистемы поощряются и за варианты, которые могут быть очень далеки от их первоначальных «убеждений». Это, по мнению ученых, необходимо, чтобы стимулировать «игроков» к поиску знаний о мире ради их большей релевантности. В противном случае подсистемы могут согласиться на совершенно неверный вариант, например, Берлин, и продолжать зарабатывать на этом баллы.

По каждому вопросу стороны играют друг против друга около 1000 игр (на обычном ноутбуке это несколько миллисекунд), в процессе которых лучше «узнают» убеждения друг друга и соответственно трансформируют стратегии. Что в итоге приводит их к равновесию Нэша – точке, в которой изменение стратегий больше не улучшает результаты игроков.

В консенсусной игре это равновесие может выглядеть по-разному. Например, если дискриминатор замечает, что регулярно получает балл за «правильность» Парижа, и обе подсистемы через несколько итераций выясняют продуктивность этой стратегии, то у них исчезает «мотивация» делать что-то еще – и они приходят к необходимому консенсусу. При этом исследователи из MIT использовали в игре модифицированную форму равновесия Нэша, учитывающую первоначальные «убеждения» подсистем, чтобы их ответы сохраняли связь с реальностью.

Предполагаемым результатом игры подсистем языковой модели является усиление ее внутренней согласованности. То есть вероятность, что независимо от формы вопроса она будет давать один и тот же ответ, повышается. И средние языковые модели (7–13 млрд параметров), на которых ученые тестировали игру, это подтверждают. Процент правильных ответов у игравших моделей был выше, чем у неигравших со сходным количеством параметров, а также у неигравших с намного большим количеством параметров (540 млрд).

Однако идея игры оказывается не только эффективной, эксперты указывают и на другие ее преимущества. По словам Шайегана Омидшафии, главного научного сотрудника робототехнической компании Field AI, исследований, занимающихся вопросами самосогласованности языковых моделей, немного, а идея игры машины против себя самой – одно из первых «умных и систематических решений». В качестве «приятного преимущества» он отмечает, что этот подход «очень легок в вычислительном отношении и не требует обучения или модификации базовой языковой модели».

Кроме того, по словам Ахмада Бейрами, научного сотрудника Google Research, языковые модели годами одинаково обрабатывали запросы и одинаковым образом генерировали ответы, а исследователи MIT предложили «совершенно иную парадигму», которая «потенциально может привести к появлению массы новых приложений».

Еще одним «эффективным и легким» способом улучшить производительность LLM без дополнительного обучения или изменения ее параметров, который рассматривается Джейкобом и его коллегами, является ансамблевая игра. В ней участвует одна большая языковая модель и хотя бы две модели меньшего размера, которые будут выступать в качестве «союзника» и «противника». Большая модель, играющая главную роль, получает баллы всякий раз, когда при ответе на вопрос выбирает такой же вариант, как у ее «союзника», либо отличный от варианта ее «противника».

У группы ученых из Google DeepMind свое видение, как расширить стратегические возможности LLM через связь теории игр и диалога, способную открыть «путь к вычислению надежных и разумных стратегий в общении». Например, рецензирование статьи для принятия ее в журнал, причем исходная версия ее была сильно раскритикована. Если учесть, что языковые модели ранжируют возможные ответы по степени их вероятности, это позволяет исследователям создавать игровое древо, подобное тому, что используется в покере и отражает доступные варианты действий и возможные последствия. «Как только вы это сделаете, вы сможете начать вычислять равновесие Нэша и затем ранжировать множество возражений», – рассказывает Йэн Гэмп, научный сотрудник DeepMind. То есть в данном случае модель ищет для вас вариант, как ответить наилучшим, по ее мнению, образом.

И хотя цели двух групп исследователей несколько различаются – группа из DeepMind, трансформируя обычные ситуации в игровой формат, стремится сделать LLM «более стратегичными», а группа из MIT с помощью теории игр «улучшает языковые модели в общих задачах». В целом предполагается, что «игровые» идеи позволят языковым моделям научится более сложным формам взаимодействия, не ограничиваясь задачами типа «вопрос-ответ».

Джейкоб Андреас, научный консультант группы исследователей из MIT, считает, что «в будущем значительная отдача будет связана с более продолжительными диалогами». И следующий шаг, по его мнению, «это заставить ИИ взаимодействовать с человеком, а не просто с другой языковой моделью».

Сообщение Игры, в которые играют не-люди: как добавить ИИ ума появились сначала на Идеономика – Умные о главном.

Баллоны с газом бросили около ЖК «Селигер сити» в Москве, где произошел взрыв

МК: Добрынин перед смертью находился в сильнейшей депрессии

Путин призвал поработать над культурой речи россиян

В Москве экстренно госпитализирован худрук театра «Ленком»

Читайте на 123ru.net

Происшествия

VIP-тусовка

Настроение

Личное

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Отопление в Москве начнут включать 7 октября

Суд в Москве рассмотрел жалобу защиты на и.о. вице-премьера Башкирии Марзаева

Как адаптироваться к переменам: стратегии Станислава Кондрашова для сотрудников с новым начальником

Врачи рассказали, почему возникает бессонница и как с ней бороться

Аксенов: в отдаленные села будут приезжать мобильные аптеки

Бастрыкин затребовал доклад по делу о нелегальном детсаде для мигрантов в Москве

Ни дня без иска против IT-гигантов: на Meta* подали в суд из-за авторских прав

Сотрудники ОМОН «СУВАР» отметили профессиональный праздник

Врач Сухорукова предупредила об опасности вегетарианства и веганства

Исторический рекорд: Владивосток обогнал Москву по стоимости жилья

Борцы сборной Якутии отличились медалями первенства России

Владивосток обогнал Москву по стоимости аренды жилья для туристов

Как распознать негатив?

В Новокузнецке пройдет международный конкурс искусств «МОЯ ЗВЕЗДА» им. А.И. Ленского

Творческая лаборатория «Наставничество в музыкальном образовании 2.0» собрала ведущих музыкантов в Волгограде

«585*ЗОЛОТОЙ» рассказала об изделиях с историей, которые принесли клиенты в ломбард ювелирной сети

Самсонова и Кочаретто вышли в полуфинал турнира WTA 1000 в Пекине в парном разряде

Мирра Андреева дебютирует в топ-20 рейтинга WTA

Рублёв признался, что мог завершить сезон после операции перед турниром ATP в Пекине

Рублев рассказал об операции перед турниром в Пекине

В Новосибирской области по БКД отремонтировали и ввели в эксплуатацию 31 дорожный объект

С начала 2024 года более 2,5 тысячи многодетных мам в Московском регионе досрочно вышли на пенсию

Портативный ТСД корпоративного класса Saotron RT-T70

StarLine: Умный комфорт в твоих руках!

Топ новостей на этот час

Врач Сухорукова предупредила об опасности вегетарианства и веганства

Уникальные учителя Красноярского края

«Зеленое» строительство на стальном каркасе в Арктике

Экс-футболист Бубнов назвал Мирачаля антигероем матча "Динамо" - "Спартак"