ИИ без базы: что препятствует внедрению искусственного интеллекта в рутинную практику
К июлю правительство должно будет сформировать базу обезличенных данных пациентов. Цель ее создания — развитие технологий искусственного интеллекта в здравоохранении. До сих пор эта работа велась недостаточно оперативно, неоднократно говорили участники рынка. Насколько изменилась ситуация и какие альтернативные базы используют разработчики, выяснял «МВ».
Что не так с доступом
Президент страны поручил Минздраву совместно с Минэкономразвития и Минцифры к 1 июля 2023 года сформировать открытые структурированные наборы — датасеты — обезличенных медицинских данных пациентов в целях их использования для развития технологий искусственного интеллекта (ИИ) в здравоохранении.
Проблема данных сегодня одна из самых сложных и трудно решаемых в здравоохранении, убежден генеральный директор Ассоциации НБМЗ Борис Зингерман. С юридической точки зрения, не до конца решен вопрос правообладания и понимания прав доступа к данным.
«Вопрос находится в сфере «влияния» закона о персональных данных и распространяется даже на обезличенные данные, — пояснил эксперт. — Трудно понять, как разработчикам получить доступ к медицинским данным, как получить согласие от пациентов, в какой мере этими данными может распоряжаться медорганизация».
Для прояснения этих вопросов год назад был предложен проект экспериментального правового режима (заявитель — компания Data MATRIX), однако он до сих пор находится в процессе согласования ведомствами, сказал Зингерман.
Вторая сторона проблемы в том, что для получения интересных результатов исследователям нужны данные из разных источников, а также информация об образе жизни, привычках, питании, активности пациентов и другие сведения, продолжил эксперт. При их сборе вопрос правообладания и доступа встает еще острее. К тому же, возникает проблема интероперабельности, т.е. одинакового кодирования, представления и, главное, понимания данных из различных источников.
Отрасль все еще находится в режиме ожидания системного решения задачи организации регламентированного доступа к деперсонифицированным данным, солидарна с коллегой глава Комитета по информатизации здравоохранения АРПП «Отечественный софт», генеральный директор компании «Платформа Третье Мнение» Анна Мещерякова.
Работа с данными — их сбором, подготовкой для обучения — может занимать до 90% времени при разработке медицинских алгоритмов, поэтому качественные датасеты критически необходимы, подчеркнул генеральный директор и сооснователь Digital Vision Solutions (облачная платформа Retina.AI) Дмитрий Каталевский. «Наличие качественных датасетов в доступе позволит разработчикам эффективно валидировать свои системы, проводить бенчмаркинг — сравнительный анализ с конкурентами», — уверен он.
Для создания своего решения Retina.AI использовала открытые датасеты, плюс выверенную базу доктора с Ближнего Востока. Сейчас компания ведет переговоры с несколькими российскими клиниками для совместных пилотных исследований и сбора предварительно анонимизированных медицинских данных.
Протезно-ортопедический центр «Сколиолоджик.ру» тоже создавал нейросеть самостоятельно. Для разработчика более актуальными оказались проблемы нехватки квалифицированных кадров, доступа к серверам для обработки больших массивов данных, рассказал советник по стратегическому развитию компании Михаил Демченко.
Что делает Минздрав
В 2020 году Минздрав начал масштабный эксперимент по созданию платформы ИИ в рамках Единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ) и предложил нескольким национальным медицинским исследовательским центрам подключиться к этой работе, оформить задачи и сформировать и разместить первые датасеты, чтобы их могли использовать разработчики, рассказал зам. гендиректора по информационным технологиям и проектному управлению НМИЦ им. В.А. Алмазова Дмитрий Курапеев на конференции ITM-AI в феврале.
В 2021 году платформа была создана, а в начале 2022-го запущена. На ней размещены первые два датасета, ведется работа над еще двумя. Решается вопрос, как будет регламентироваться доступ к платформе, сказал эксперт.
Сайт Минздрава ai.minzdrav.gov.ru в этом году должен стать площадкой, которая объединит разработчиков ИИ и высококлассных медспециалистов, заявил заместитель министра здравоохранения Павел Пугачев в ходе той же конференции. По его словам, сейчас отраслевые министерства прорабатывают порядок доступа к этому ресурсу, к датасетам.
«Такой инструмент полезен, но не нов, — высказал мнение Зингерман. — Проекты по публикации узкоспециализированных датасетов уже предпринимали Сколково со Сбером, а также Москвой в рамках масштабного эксперимента по применению ИИ в лучевой диагностике».
На сайте mosmed.ai опубликовано уже 200 датасетов и к середине года должны выложить в открытый доступ датасет еще примерно на 140 тыс. пациентов, анонсировал в ходе ITM-AI директор Центра диагностики и телемедицины ДЗМ, главный специалист Москвы по лучевой и инструментальной диагностике Юрий Васильев.
Что нужно разработчикам
По мнению Зингермана, в отношении платформы Минздрава ожидания разработчиков более глобальные, ведь ЕГИСЗ — «верховный интегратор», аккумулирующий данные практически из всех медорганизаций. Крайне важно, чтобы этот инструмент обеспечил доступ к таким объединенным данным, решив и юридическую и интеграционную проблемы, считает эксперт.
Качественные открытые датасеты — не единственный камень преткновения на пути внедрения решений на базе ИИ в клиническую практику. «Острой проблемой для разработчиков программных продуктов на основе ИИ остаются сложности с поставками оборудования для обучения алгоритмов, прежде всего, видеокарт», — рассказала Мещерякова.
В России нет спроса на ИИ-решения ни от частной, ни от государственной систем здравоохранения, обозначил ключевую проблему директор по проектной деятельности Ассоциации НБМЗ Андрей Алмазов. «Все остается на уровне экспериментов, — подчеркнул он. — Единственный субъект, демонстрирующий практический интерес и создающий условия для применения решений — Москва. При этом на рынке есть достаточно странные инициативы, когда и частники, и госкорпорации вместо того, чтобы провести M&A с уже зарекомендовавшими себя стартапами, начинают делать что-то свое — с отставанием соответственно на два-три года».
Дополнительно к этому рынок фармисследований, для которых работали некоторые решения, также «сдулся», заявил Алмазов. Так что разработчикам пока остается нарабатывать опыт в экспериментах. «Но с их стороны не видно стремления делать полноценные клинические исследования, которые бы сняли вопросы: «А работает ли это достаточно хорошо для того, чтобы применять на практике?» — подчеркнул эксперт.
Как за рубежом
В разных странах существуют различные подходы. Сейчас можно найти много зарубежных датасетов в открытом доступе: из США, Индии, отметил Каталевский.
По пути сбора данных и открытия доступа к датасетам развиваются и европейские инициативы, например AI Sweden. Для обработки огромных объемов данных и поиска связей с использованием глубоких нейронных сетей необходима большая вычислительная мощность. Исследователям из Швеции доступен один из самых быстрых в Европе суперкомпьютеров Berzelius в Национальном суперкомпьютерном центре страны. Его мощности использовали, в том числе проекты, связанные с компьютерным зрением, лечением рака и разработкой новых материалов.
Обычно крупные университеты или медицинские сообщества выпускают профильные датасеты для свободного доступа исследователей, рассказал Зингерман. Так, один испанский университет в июне 2020 года анонсировал релиз датасета по пациентам, госпитализированным с COVID-19 в одном из крупнейших госпиталей страны. Обезличенные данные предоставлялись любым исследовательским группам. Получение доступа к ним заняло пять дней и потребовало написания двух электронных писем, уточнил эксперт.
Впрочем, доступ к испанским данным не стал автоматическим залогом успеха. «У нас не получилось обучить на их основе готовый продукт, но зато наши усилия были затрачены именно на алгоритм, а не на доступ к данным», — подвел черту Зингерман.