Вжух – и ваш паспорт утек в Интернет. Как IT-стартап Dbrain незаконно собирает личные данные россиян, притворяясь ИИ

Когда в апреле этого года прогремела новость о том, что в супермаркетах Amazon у покупателей товары считывали не умные камеры, а 1000 индийцев, многие СМИ и Интернет-пользователи возмущались “грандиозным ИИ-обманом” мегакорпорации. Между тем в России есть компания, пытающаяся продавать решения, которые только притворяются искусственным интеллектом, – Dbrain.

Краудсорсинговый сервис распознавания документов Dbrain, резидент Сколково, не раз критиковали за то, что у него обработкой документации вместо искусственного интеллекта занимаются неизвестные операторы. Недавно в компании вновь заявили о том, что их распознавание – автоматическое и основано на “собственных нейросетях”, и предложили всем желающим протестировать работу сервиса, отправив фото своего паспорта и других личных документов в Telegram-бот сервиса. Однако качество распознавания оказалось столь неудовлетворительным, что только подтвердило неэффективность продуктов Dbrain – и в этом мы убедились на собственном опыте. Не говоря о том, что сама процедура сбора данных через бот откровенно нарушает федеральный закон №152-ФЗ “О персональных данных”. Но обо всем по порядку.

Предложение, от которого невозможно отказаться

Напомним, что краудсорсинговый сервис выступил с заявлением о работе своих продуктов на фоне разразившегося скандала вокруг нашумевшего криптовалютного кликера Hamster Kombat. После того, как Интернет заполонили сообщения разъяренных геймеров, которые на “тапании хомяка” планировали заработать миллионы, а получили всего несколько долларов, в одном из крупных Telegram-каналов вышел пост, посвященный одному из создателей игры и по совместительству “серийному предпринимателю” Эдуарду Гуриновичу. Среди прочих афер неудачливого бизнесмена в публикации упоминался и Dbrain, выдающий себя за разработчика ИИ, но на деле в открытую использующий труд анонимных операторов.

В Dbrain предприняли попытку опровергнуть обвинения в ручной обработке документов и предложили всем желающим протестировать работу систем сервиса, воспользовавшись специальным демо-ботом в Telegram под сомнительным названием “Вжух – и распозналось”. В обращении клялись показать “автоматическое распознавание за 1–2 секунды, что вручную выполнить невозможно”. Воспользоваться ботом можно бесплатно, на это отводится несколько попыток. Пользователь должен отправить скан или фотографию личного документа, а затем через время ему присылается сообщение со всеми распознанными данными.

Мы решили проверить, насколько правдива похвальба разработчиков Dbrain, и протестировали распознавание на разных документах – нескольких разворотах паспорта и свидетельстве о рождении. Все это мы нашли в Интернете, потому что отправлять личные данные неизвестно куда, напомним, – опасно. А никакой конфиденциальности бот вам предсказуемо не гарантирует.

Вжух – и не распозналось

Первым неприятным сюрпризом было время распознавания – разработчик обещал всего “1-2 секунды”, а в действительности ждать пришлось 1-2 минуты. Например, изображение центрального разворота паспорта РФ, взятое из Википедии, было отправлено в 17:55, а сообщение с распознанными данными пришло только в 17:57.

Была надежда, что долгая обработка документа будет хотя бы компенсироваться высоким качеством распознавания, но куда там. Город Архангельск, указанный в поле “место рождения”, вдруг стал “А7нгель”. Еще не была извлечена дата рождения “12.09.1682”, а в поле “МУЖ.” потерялась точка.

Указанные просчеты уже подтвердили часть сомнений насчет ИИ Dbrain, но поскольку остальные данные были распознаны верно, было решено продолжить эксперимент. Для одной из попыток мы взяли российский паспорт Барака Обамы отсюда.

С этим документом ситуация с длительным ожиданием повторилась. Например, изображение паспорта было отправлено в 18:15, распознанные данные пришли в 18:16. Обещанных 1-2 секунд опять не было.

Со вторым пошла полная фантазия и начались галлюцинации: бот начал не просто игнорировать некоторые поля и допускать ошибки в словах, а буквально выдумывать новые данные  Так, в другом фейковом паспорте, изображение которого было отправлено на обработку, владелец документа из Александровича вдруг стал Владимировичем. Серию и номер паспорта бот также “додумал”, выдав вместо видимого ряда единиц 9311 447826. С кодом подразделения, датой рождения и выдачи сервис Dbrain поступил аналогично.

Причем все “придуманные” данные бот взял из нижней части страницы с фото (называется она MRZ). Никакой сверки хваленая система, разумеется, не провела. Как и не поставила пробелов между словами “УФМС” и “России”, “по” и “Омской”.

Фантазии ИИ не знают границ

После основного разворота паспорта было решено отправить боту страницу с пропиской, взятую из ВКонтакте (серию и номер паспорта мы специально скрыли). Тем более там встречаются рукописные данные, и было любопытно узнать, справится ли с ними бот Dbrain. Как и ожидалось, распознавание вновь растянулось на несколько минут, и на отправленный в 18:26 файл система отреагировала только в 18:28. Видно, заявленной скорости обработки документа дождаться было не суждено.

Бот не распознал дату регистрации и выдавший документ орган, из адреса регистрации смог корректно выдать по сути лишь одно слово. Из напечатанной информации на изображении об органе, поставившем штамп, и написанного в нем от руки адреса бот придумал новый адрес и новый город в Московской области – СЕОГОМСК.

Под конец боту было отправлено свидетельство о рождении, взятое из Википедии. Ситуация не изменилась: в одном слове могло быть по несколько ошибок, а отдельные наименования превратились в какую-то тарабарщину. Например, мать владельца документа из Турсуновой Евгении Сергеевны стала Тирсуновой Еваенией Серзеевной. А орган, выдавший свидетельство, превратился в “опел.Загс Дерожкинеского рабона2. Новосибцрска уравления ло Оебламй ЗАС Нвсибдрскай область”.

На этом фантазия бота не остановилась, и в месте рождения он откуда-то взял СНТ Родина и строение 5А, по пути потеряв целую Новосибирскую область, а также, что более важно, – дату выдачи и серию документа.

По итогу мы имеем сервисного бота, который допускает ошибки не только на фотографиях, но и на сканах хорошего качества. Порой сервис Dbrain не распознает целые строки документов, а в ряде случаев  начинает выдавать то, чего в документах просто нет. Причем это происходит и тогда, когда придуманная им информация (ФИО, серии с номерами и прочие данные) четко видна на изображениях.

Возникают вопросы – почему сервис, с апломбом заявляющий о своих технологиях, не справился с такими простыми задачами? Речь про автоматическое распознавание печатного текста в паспорте. Может быть, проблема кроется не в технологиях, а глубже? В своем комментарии Dbrain обрисовали два пути: автоматическое распознавание и ручной ввод неизвестными операторами Яндекс.Заданий. Автоматическая обработка, как показала практика, у Dbrain совершенно бессильна даже против элементарных образцов. Выходит, вообще вся работа по вводу данных осуществляется людьми?

Краудсорсер расправил плечи

На самом деле ничего удивительного в этом нет, учитывая, сколько раз представители Dbrain открыто признавали факт привлечения краудсорсинга для распознавания данных паспортов и других документов, как будто бы приучая клиентов к этой мысли на случай утечки данных. Схема ясна: вы присылаете ваши конфиденциальные данные, Dbrain идет на “Яндекс Задания”, и там их вводит неизвестный разметчик. И в этом кроется самая большая опасность. Оператором на платформе может стать фактически любой желающий. Платформе надо, чтобы кто-то вводил данные, а кто именно – дело десятое.

Добавьте к этому то, что за выполнение заданий по вводу данных операторы получают даже не рубли, а копейки, и получите потенциально криминогенную среду, где анонимные краудсорсеры могут делать с присланными данными все, что им заблагорассудится. В том числе продавать документы на черном рынке. С краудсорсингом Dbrain связан явно потому, что их технология не справляется с обработкой даже самых очевидных документов, а операторы-краудсорсеры нужны, чтобы прикрывать ее просчеты. Попытаться исправить ситуацию можно, лишь “натаскав” технологию. Только где взять данные для обучения такой системы?

Здесь Dbrain, судя по всему, решили идти напролом и начали собирать ваши личные данные в открытую – через того самого бота. Эдакий ход “под дурачка” – заставить пользователей самим присылать фото своих документов. Однако заниматься таким без прямого согласия владельца данных попросту незаконно. Краудсорсинговый сервис, собирая через бота фотографии или сканы паспортов, свидетельств и тому подобного, фактически нарушает закон №152-ФЗ. При этом никаких проверок в отношении сервиса не проводилось, а сам Dbrain продолжает пиариться в Telegram-каналах.

Тест бота Dbrain проводился меньше месяца назад, на данный момент бот деактивирован. Выходит, безнаказанно собрали данные и сбежали, пока никто не видит.

Распозналось – и точка?

Таким образом, Dbrain, стремясь утвердиться, что его сервис является полностью автоматическим, продолжает настойчиво убеждать всех в обратном. После его “автоматического” распознавания необходимо проверять каждое слово или номер, а в иных случаях легче самому вбить все данные, чем исправлять множественные ошибки системы.

Но некачественное распознавание – далеко не единственная проблема Dbrain. Сервис позиционирует свои решения как ИИ-продукты, однако по факту в них используются живые люди, и если вы воспользуетесь решениями компании, и передадите в облако Dbrain свои данные, то они окажутся под угрозой. С присланными сведениями может произойти все, что угодно, и последствия могут быть гораздо более серьезными, чем простая ошибка в распознавании.

Автор: Атон Игнатенко

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Омске, в Омской области и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Омске

Ria.city

В Крыму определен самый сильный человек России

Томский завод удерживает 50% рынка майонеза в регионе

«Авангард» победил «Металлург» в матче КХЛ

Красноярские самбисты завоевали 8 медалей всероссийского турнира

Музыкальные новости

В Москве госпитализирован напавший на журналистов во Внуково посол Британии

Собянин поздравил работников автотранспорта с профессиональным праздником

Bloomberg: в 2025 году у США появится оружие против спутников России и Китая

Теперь в России нет доктора искусствоведения и писателя Раисы Кирсановой. Зато есть киргиз Акылбек

Новости Омска

Жители Кубани пострадали при столкновении семи грузовиков в Омской области

Дмитрий Дюжев рассказал о сериале «Гудбай» про Джо Байдена в «Шоу Воли» на ТНТ

Хоккеисты ЦСК ВВС победили команду «СКА-Нева»

«Авангард» победил «Металлург» в матче КХЛ

Экология в Омской области

В этих вещах женщина будет выглядеть моложе

Куда можно поехать из России без загранпаспорта: 6 стран

Концертный Директор в тарифе Maxi.

Цитаты про коллектив

Спорт в Омской области

Вена (ATP). 1/2 финала. Музетти встретится с Дрэйпером

София Кенин впервые за 13 месяцев вышла в финал WTA и вернётся в топ-100

Карен Хачанов вышел в третий круг турнира в Вене, где встретится с Маттео Берреттини

Касаткина проиграла 155-й ракетке мира на турнире в Токио

Moscow.media

Ноябрьский вечер....

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Терминал сбора данных (ТСД) промышленного класса SAOTRON RT42G

Россиянам стали гораздо меньше выдавать автокредитов: в чем причина?











Топ новостей на этот час в Омске и Омской области

Rss.plus






На новосибирской трассе водитель кроссовера сбил мужчину — момент жуткого ДТП попал на видео

Жители Кубани пострадали при столкновении семи грузовиков в Омской области

Сильнейшим человеком России стал житель Омска

"Вот, в общем-то, и всё". Главный тренер саратовского "Кристалла" прокомментировал глубокий проигрыш клуба в Омске