Так Google хочет, чтобы я начал говорить «Привет, Gemini» прямо сейчас, да? Нет, спасибо, можешь идти в море со своей ерундой. Я этого не потерплю. Называйте меня луддитом, называйте меня брюзгой, говорите мне идти в ногу со временем; мне все равно, я не собираюсь разговаривать со своим технарем.
Теперь, прежде чем перейти к сути этой статьи, я хотел бы сделать предисловие, сказав, что я не против существования функций голосового управления в целом. На самом деле, это чрезвычайно важная функция доступности, на которую полагаются многие пользователи с ограниченными возможностями, чтобы получить полный опыт использования своего оборудования. Но для тех, кому это на самом деле не нужно , как мне, что, черт возьми, плохого в том, чтобы просто нажать несколько кнопок или коснуться сенсорного экрана?
Меня раздражает, если кто-то слишком громко разговаривает по телефону в общественном транспорте. Когда технологические компании вроде Google говорят мне, что голосовое управление — это будущее нашего взаимодействия с технологиями, меня тут же охватывает ужас от мысли о путешествии по городу, где все постоянно отдают команды своим телефонам и планшетам.
Я провел небольшое исследование фактической статистики использования голосового управления и был удивлен результатами. Я буквально никогда не видел, чтобы кто-то использовал свой телефон для поиска чего-либо в Интернете с помощью голосовой команды; конечно, я видел, как люди просили свой умный динамик Alexa включить музыку или выключить свет, чего я, вероятно, тоже никогда не сделаю, потому что у меня всегда есть телефон в кармане, который может делать все это, но поиск в Интернете? Серьезно?
Видимо, так: согласно исследованию PWC 2018 года , 32% пользователей голосовых помощников спрашивают своего выбранного цифрового помощника по крайней мере об одной вещи, для которой они обычно используют поисковую систему ежедневно, а 89% делают это по крайней мере раз в месяц. Конечно, это только те люди, которые уже используют голосового помощника, но анализ Statista утверждает, что почти половина американцев разговаривают со своими телефонами или умными колонками по крайней мере полурегулярно (хотя эта цифра сокращается примерно до 1 из 5 в глобальном масштабе).
Дело в том, что чем глубже я углублялся в эту статистику, тем меньше она меня убеждала. Для начала, самый первый набор статистики, с которым я столкнулся (ссылку на который я здесь приводить не буду), утверждал, что «по оценкам, 8,4 миллиарда человек во всем мире пользуются голосовыми помощниками» — это… больше, чем общая численность населения на сегодняшний день. Я начал замечать больше расхождений в данных, а также вынужден был отбросить некоторые источники из-за очевидной предвзятости в пользу маркетинга в пользу технологий.
Больше сбитый с толку, чем просвещенный, я в конечном итоге пришел к выводу, что большая часть статистических исследований в этой области технологий была основана больше на продажах продуктов, чем на фактических беспристрастных опросах населения: и это серьезный недостаток, потому что человек, у которого есть одно устройство с голосовым управлением, скорее всего, будет иметь больше. У меня есть подруга, у которой три одинаковых интеллектуальных динамика Echo Dot , расположенных в разных комнатах по всему дому, и она использует Siri на своем iPhone, чтобы запрашивать музыку, находясь в машине. Я? У меня просто есть плейлист для вождения, который я перемешиваю перед тем, как завести двигатель.
Признаю, что мое обычное оправдание того, почему я ненавижу голосовое управление, уже не так весомо, как раньше. Если коротко, то это оправдание было: это дерьмо . Первые дни Siri, Cortana и им подобных были охвачены постоянным рефреном «Извините, я не совсем понял», но с рассветом ИИ все начинает улучшаться.
Такие инструменты, как Apple Intelligence и Google Gemini, предлагают мультимодальный ввод, что позволяет им понимать как голосовые запросы, так и текстовые подсказки. Современные ИИ с большими языковыми моделями гораздо лучше справляются с анализом произнесенных слов, чем старое программное обеспечение для распознавания голоса, и даже способны со временем адаптироваться к речевым моделям отдельного пользователя, чтобы предоставлять более точные ответы.
Однако все еще есть камни преткновения, которые нужно преодолеть. Хотя распознавание голоса обычно поддерживает несколько языков, оно часто испытывает трудности с сильным акцентом и дефектами речи (у меня самого шепелявость, что не помогает). Это может быть связано с незамеченными предубеждениями в используемых обучающих данных: если американская компания использует записи американцев, говорящих по-английски, чтобы обучить свой ИИ распознавания речи понимать устный английский, неудивительно, что он будет испытывать трудности, когда услышит, как японец или швед говорит на этом языке.
Я искренне надеюсь, что однажды голосовое управление заработает идеально, потому что люди, которым оно действительно нужно, заслуживают сервиса, который работает так же хорошо, как и простое написание запроса в Google. Но я не буду им пользоваться, и я не хочу жить в будущем, где все будут — можете поспорить, я буду первым в очереди, чтобы наказать любую технологическую компанию, которая попытается сделать голосовые команды режимом взаимодействия по умолчанию со своим продуктом.
Сообщение Я никогда не буду использовать голосовое управление для своей техники даже с улучшенным ИИ появились сначала на DGL.RU - Цифровой мир: новости, тесты, обзоры телефонов, планшетов, ноутбуков.