Добавить новость
Другие новости Москвы и Московской области на этот час
Добавь свою новость бесплатно - здесь

Вжух – и ваш паспорт утек в Интернет. Как IT-стартап Dbrain незаконно собирает личные данные россиян, притворяясь ИИ

Когда в апреле этого года прогремела новость о том, что в супермаркетах Amazon у покупателей товары считывали не умные камеры, а 1000 индийцев, многие СМИ и Интернет-пользователи возмущались “грандиозным ИИ-обманом” мегакорпорации. Между тем в России есть компания, пытающаяся продавать решения, которые только притворяются искусственным интеллектом, – Dbrain.

Краудсорсинговый сервис распознавания документов Dbrain, резидент Сколково, не раз критиковали за то, что у него обработкой документации вместо искусственного интеллекта занимаются неизвестные операторы. Недавно в компании вновь заявили о том, что их распознавание – автоматическое и основано на “собственных нейросетях”, и предложили всем желающим протестировать работу сервиса, отправив фото своего паспорта и других личных документов в Telegram-бот сервиса. Однако качество распознавания оказалось столь неудовлетворительным, что только подтвердило неэффективность продуктов Dbrain – и в этом мы убедились на собственном опыте. Не говоря о том, что сама процедура сбора данных через бот откровенно нарушает федеральный закон №152-ФЗ “О персональных данных”. Но обо всем по порядку.

Предложение, от которого невозможно отказаться

Напомним, что краудсорсинговый сервис выступил с заявлением о работе своих продуктов на фоне разразившегося скандала вокруг нашумевшего криптовалютного кликера Hamster Kombat. После того, как Интернет заполонили сообщения разъяренных геймеров, которые на “тапании хомяка” планировали заработать миллионы, а получили всего несколько долларов, в одном из крупных Telegram-каналов вышел пост, посвященный одному из создателей игры и по совместительству “серийному предпринимателю” Эдуарду Гуриновичу. Среди прочих афер неудачливого бизнесмена в публикации упоминался и Dbrain, выдающий себя за разработчика ИИ, но на деле в открытую использующий труд анонимных операторов.

В Dbrain предприняли попытку опровергнуть обвинения в ручной обработке документов и предложили всем желающим протестировать работу систем сервиса, воспользовавшись специальным демо-ботом в Telegram под сомнительным названием “Вжух – и распозналось”. В обращении клялись показать “автоматическое распознавание за 1–2 секунды, что вручную выполнить невозможно”. Воспользоваться ботом можно бесплатно, на это отводится несколько попыток. Пользователь должен отправить скан или фотографию личного документа, а затем через время ему присылается сообщение со всеми распознанными данными.

Мы решили проверить, насколько правдива похвальба разработчиков Dbrain, и протестировали распознавание на разных документах – нескольких разворотах паспорта и свидетельстве о рождении. Все это мы нашли в Интернете, потому что отправлять личные данные неизвестно куда, напомним, – опасно. А никакой конфиденциальности бот вам предсказуемо не гарантирует.

Вжух – и не распозналось

Первым неприятным сюрпризом было время распознавания – разработчик обещал всего “1-2 секунды”, а в действительности ждать пришлось 1-2 минуты. Например, изображение центрального разворота паспорта РФ, взятое из Википедии, было отправлено в 17:55, а сообщение с распознанными данными пришло только в 17:57.

Была надежда, что долгая обработка документа будет хотя бы компенсироваться высоким качеством распознавания, но куда там. Город Архангельск, указанный в поле “место рождения”, вдруг стал “А7нгель”. Еще не была извлечена дата рождения “12.09.1682”, а в поле “МУЖ.” потерялась точка.

Указанные просчеты уже подтвердили часть сомнений насчет ИИ Dbrain, но поскольку остальные данные были распознаны верно, было решено продолжить эксперимент. Для одной из попыток мы взяли российский паспорт Барака Обамы отсюда.

С этим документом ситуация с длительным ожиданием повторилась. Например, изображение паспорта было отправлено в 18:15, распознанные данные пришли в 18:16. Обещанных 1-2 секунд опять не было.

Со вторым пошла полная фантазия и начались галлюцинации: бот начал не просто игнорировать некоторые поля и допускать ошибки в словах, а буквально выдумывать новые данные  Так, в другом фейковом паспорте, изображение которого было отправлено на обработку, владелец документа из Александровича вдруг стал Владимировичем. Серию и номер паспорта бот также “додумал”, выдав вместо видимого ряда единиц 9311 447826. С кодом подразделения, датой рождения и выдачи сервис Dbrain поступил аналогично.

Причем все “придуманные” данные бот взял из нижней части страницы с фото (называется она MRZ). Никакой сверки хваленая система, разумеется, не провела. Как и не поставила пробелов между словами “УФМС” и “России”, “по” и “Омской”.

Фантазии ИИ не знают границ

После основного разворота паспорта было решено отправить боту страницу с пропиской, взятую из ВКонтакте (серию и номер паспорта мы специально скрыли). Тем более там встречаются рукописные данные, и было любопытно узнать, справится ли с ними бот Dbrain. Как и ожидалось, распознавание вновь растянулось на несколько минут, и на отправленный в 18:26 файл система отреагировала только в 18:28. Видно, заявленной скорости обработки документа дождаться было не суждено.

Бот не распознал дату регистрации и выдавший документ орган, из адреса регистрации смог корректно выдать по сути лишь одно слово. Из напечатанной информации на изображении об органе, поставившем штамп, и написанного в нем от руки адреса бот придумал новый адрес и новый город в Московской области – СЕОГОМСК.

Под конец боту было отправлено свидетельство о рождении, взятое из Википедии. Ситуация не изменилась: в одном слове могло быть по несколько ошибок, а отдельные наименования превратились в какую-то тарабарщину. Например, мать владельца документа из Турсуновой Евгении Сергеевны стала Тирсуновой Еваенией Серзеевной. А орган, выдавший свидетельство, превратился в “опел.Загс Дерожкинеского рабона2. Новосибцрска уравления ло Оебламй ЗАС Нвсибдрскай область”.

На этом фантазия бота не остановилась, и в месте рождения он откуда-то взял СНТ Родина и строение 5А, по пути потеряв целую Новосибирскую область, а также, что более важно, – дату выдачи и серию документа.

По итогу мы имеем сервисного бота, который допускает ошибки не только на фотографиях, но и на сканах хорошего качества. Порой сервис Dbrain не распознает целые строки документов, а в ряде случаев  начинает выдавать то, чего в документах просто нет. Причем это происходит и тогда, когда придуманная им информация (ФИО, серии с номерами и прочие данные) четко видна на изображениях.

Возникают вопросы – почему сервис, с апломбом заявляющий о своих технологиях, не справился с такими простыми задачами? Речь про автоматическое распознавание печатного текста в паспорте. Может быть, проблема кроется не в технологиях, а глубже? В своем комментарии Dbrain обрисовали два пути: автоматическое распознавание и ручной ввод неизвестными операторами Яндекс.Заданий. Автоматическая обработка, как показала практика, у Dbrain совершенно бессильна даже против элементарных образцов. Выходит, вообще вся работа по вводу данных осуществляется людьми?

Краудсорсер расправил плечи

На самом деле ничего удивительного в этом нет, учитывая, сколько раз представители Dbrain открыто признавали факт привлечения краудсорсинга для распознавания данных паспортов и других документов, как будто бы приучая клиентов к этой мысли на случай утечки данных. Схема ясна: вы присылаете ваши конфиденциальные данные, Dbrain идет на “Яндекс Задания”, и там их вводит неизвестный разметчик. И в этом кроется самая большая опасность. Оператором на платформе может стать фактически любой желающий. Платформе надо, чтобы кто-то вводил данные, а кто именно – дело десятое.

Добавьте к этому то, что за выполнение заданий по вводу данных операторы получают даже не рубли, а копейки, и получите потенциально криминогенную среду, где анонимные краудсорсеры могут делать с присланными данными все, что им заблагорассудится. В том числе продавать документы на черном рынке. С краудсорсингом Dbrain связан явно потому, что их технология не справляется с обработкой даже самых очевидных документов, а операторы-краудсорсеры нужны, чтобы прикрывать ее просчеты. Попытаться исправить ситуацию можно, лишь “натаскав” технологию. Только где взять данные для обучения такой системы?

Здесь Dbrain, судя по всему, решили идти напролом и начали собирать ваши личные данные в открытую – через того самого бота. Эдакий ход “под дурачка” – заставить пользователей самим присылать фото своих документов. Однако заниматься таким без прямого согласия владельца данных попросту незаконно. Краудсорсинговый сервис, собирая через бота фотографии или сканы паспортов, свидетельств и тому подобного, фактически нарушает закон №152-ФЗ. При этом никаких проверок в отношении сервиса не проводилось, а сам Dbrain продолжает пиариться в Telegram-каналах.

Тест бота Dbrain проводился меньше месяца назад, на данный момент бот деактивирован. Выходит, безнаказанно собрали данные и сбежали, пока никто не видит.

Распозналось – и точка?

Таким образом, Dbrain, стремясь утвердиться, что его сервис является полностью автоматическим, продолжает настойчиво убеждать всех в обратном. После его “автоматического” распознавания необходимо проверять каждое слово или номер, а в иных случаях легче самому вбить все данные, чем исправлять множественные ошибки системы.

Но некачественное распознавание – далеко не единственная проблема Dbrain. Сервис позиционирует свои решения как ИИ-продукты, однако по факту в них используются живые люди, и если вы воспользуетесь решениями компании, и передадите в облако Dbrain свои данные, то они окажутся под угрозой. С присланными сведениями может произойти все, что угодно, и последствия могут быть гораздо более серьезными, чем простая ошибка в распознавании.

Автор: Атон Игнатенко

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Москве, в Московской области и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Москве

Ria.city

Семья с 13-летним ребенком погибла из-за пожара в Саратове

ПАО «Совкомбанк» оштрафовали на 410 тыс рублей за нарушение закона о рекламе

Боксёры из Локни выиграли три медали на соревнованиях в Смоленской области

Загрутдинов: дольщикам проблемного ЖК «Малыгина, 12» начали выдавать ключи

Музыкальные новости

Концертный Директор в тарифе Maxi.

«Химки» — «Динамо» Москва. Прямая трансляция: смотреть бесплатно РПЛ

Хоккейный «Спартак» объявил об уходе тренера

Обложка песни. Обложки альбомов песен. Сделать обложку для песни.

Новости Москвы

Новую детскую площадку открыли в поселке Быково Подольска

Gokon vs. обычное свидание: в чем различия?

SCMP: Путин уже победил Запад, когда не дал ему изолировать РФ

«Для устройств молекулярной электроники»: учёные создали вычислительный компонент на основе светящегося белка и углерода

Экология в Москве

В этих вещах женщина будет выглядеть моложе

Психологи МГППУ рассказали о новинках в диагностике настойчивости и реагирования на неопределенность у подростков

Услуги спа-комплекса со скидкой 50% в Marins Park Hotel Нижний Новгород

Маме Наташи Королёвой надоело в Америке. Она приехала в Россию

Спорт в Москве

Арина Соболенко поделилась забавным видео в соцсетях

Елена Рыбакина узнала плохие новости от WTA

Вена (ATP). Хачанов и Дрэйпер разыграют титул

Хачанов победил Накашиму и вышел в третий круг турнира ATP в Вене

Москва на Moscow.media

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Ноябрьский вечер....

Заместитель управляющего Отделением Фонда пенсионного и социального страхования Российской Федерации по г. Москве и Московской области Алексей Путин: «Клиентоцентричность - наш приоритет»











Топ новостей на этот час в Москве и Московской области

Rss.plus






Опубликована программа празднования Дня народного единства в Ульяновске

Прокурор потребовал от РЖД отремонтировать Императорский мост

Собянин рассказал о сроках продления наземного метро до Ярославской области

Новую детскую площадку открыли в поселке Быково Подольска