Вирусная математика: как IT-компании прогнозируют развитие пандемии
На днях глава Сбербанка Герман Греф назвал прогноз прохождения пика заболеваний коронавирусом в России: 5-10 мая. Банк, который становится техногигантом и дает эпидемиологические прогнозы, – яркий представитель «индустрии 4.0», в которой решающими факторами становятся доступность огромных массивов данных и умение с ними работать. «Профиль» рассказывает, что нас ждет в ближайшем будущем, судя по IT-моделям.
Мировой закон эпидемий
Статистика заболеваемости COVID-19 обновляется ежедневно. СМИ публикуют ее в виде цифр, часто сопровождая комментариями экспертов – вирусологов, эпидемиологов, ответственных чиновников. А IT-компании и отдельные специалисты собирают эти данные для того, чтобы на их основе строить прогнозы. Которые в свою очередь должны помочь выработать правильные решения относительно карантинных мер. Работа с данными возможна только там, где есть качественная статистическая выборка.
Поскольку «возраст» коронавируса составляет несколько месяцев, статистика уже накопилась, и ее можно представить визуально, в виде карты и графиков. В России такие сервисы представили, в частности, «Яндекс» и «2ГИС». В них можно найти динамику выявления новых случаев COVID-19 по странам. Из нее видно, что вирус, как и любая другая эпидемия, подчиняется закону нормального распространения (функции Гаусса): количество случаев наращивается постепенно, проходит пик, после чего начинается снижение.
США, нынешний лидер по числу заболеваний, находится на этом пике (его иногда называют «плато» из-за протяженности) с начала апреля: ежедневный прирост новых случаев составляет около 30 тысяч. Южная Корея прошла пик еще в начале марта, после чего дал о себе знать жесткий карантин. Россия в свою очередь пока находится либо на «взлете», либо уже на пике – понять это только по статистике не получится. Здесь и вступают в силу различные прогностические модели.
Так, на основе закона нормального распределения авторы проекта coronavirussia.online построили простую математическую модель, дающую общее представление о том, когда может закончиться пандемия. Согласно ей, мир уже находится на пике заболеваемости, дальше ждет спад и постепенное восстановление. Для России прогноз чуть менее оптимистичный: пик должен прийтись примерно на середину июня.
На сайте подчеркивается, что это только математическая модель, которая учитывает статистические данные, не более. Попытка учесть дополнительные факторы – например, географию распространения и соблюдение карантинных мер, – неизбежно приводит к усложнению прогностических моделей. По этой причине большинство прогнозов относительно коронавируса ограничены локально: оцениваются перспективы отдельных стран, штатов, городов. Сдержать карантином
Распространение вирусных инфекций напрямую зависит от перемещения людей, поэтому географический фактор при построении прогностических моделей можно считать одним из ключевых. «Большие данные» о перемещении людей сегодня собираются двумя главными способами: с сигналов мобильных телефонов (которые используются, например, для показа пробок на картах) и из статистики транспортных сервисов.
Последняя уже позволила составить более детальный прогноз по распространению заболевания. Так, на основе данных сервиса путешествий Tutu.ru было проработано несколько сценариев. Самый плохой случай – никакие карантинные меры не предпринимаются, транспортные потоки сохраняются на 100% (по сравнению с апрелем 2019 года). Самый позитивный – полная изоляция. Реалистичный – жесткий карантин с сохранением 10% потока.
В получившемся датасете (наборе данных, пригодном к программной обработке) собрано множество российских городов. За точку отсчета принимается 22 марта 2020 года, учитывается число одновременно зараженных без учета выздоровевших. На примере Москвы можно увидеть, что худший сценарий – 1000 человек за 13 дней (то есть к 4 апреля), 10 тысяч – за 25 дней, 100 тысяч – за 38. Реалистичный сценарий – те же цифры на 18-й (к 9 апреля), 33-й и 51-й день соответственно. По состоянию на 21 апреля (31-й день с начала отсчета) в Москве более 27 тысяч одновременно болеющих, то есть пока ситуация ближе к негативному прогнозу.
Попытки рассчитать спад пандемии даже в отдельно взятых регионах – еще более сложная и ответственная задача. Эпидемиологи в целом сходятся на том, что Россия приближается к пику по числу заболеваний и в мае должна его пройти. Эксперты также учитывают соблюдение карантинных мер, и в этом их преимущество перед компьютерами, ведь действия властей и степень сознательности населения не может предсказать ни одна математическая модель. По словам специалистов, скорое ослабление карантина может вызвать новую волну эпидемии, которая, вероятно, придется на осень.
Аналогичное мнение высказывает в СМИ глава Сбербанка Герман Греф. Однако он, напротив, ссылается не на эпидемиологов, а на искусственный интеллект (ИИ) – технологию, оказавшуюся весьма полезной для ориентации в мире бушующей пандемии. Искусственный разум против вируса
Сбербанк представил суперкомпьютер «Кристофари», который предназначен для работы с ИИ, в ноябре 2019 года. Известно, что он используется для обработки данных по коронавирусу. Правда, на подробности компания скупа. В начале марта Греф заявил, что банк построил три модели развития пандемии в России, охарактеризовав прогноз как более благоприятный по сравнению с другими государствами. Также с осторожностью было сказано о второй, осенней, волне коронавирусной инфекции. Позже, в интервью 21 апреля, Греф привел конкретные даты: пик коронавируса должен прийтись на 5-10 мая.
Осторожность главы Сбербанка объяснима: технологии ИИ пока не зарекомендовали себя как зрелые и достаточно точные, а значит, давать публичные прогнозы на их основе, которые не соответствуют экспертным оценкам, преждевременно. Красноречив пример HedgeChatter – компании, которая использует ИИ для финансового прогнозирования. Она решила применить свою модель для «непрофильной» задачи и в результате получила пугающую цифру (которая, к счастью, не подтвердилась): 2,5 млрд заболевших и почти 53 млн смертей в течение 45 дней.
Впрочем, хватает и обратных примеров. Так, канадская компания BlueDot предсказала пандемию коронавируса раньше Всемирной организации здоровья – 30 декабря. ИИ-система предупредила о возможности распространения нового заболевания на основе анализа данных о нем из открытых источников, а также о перемещении самолетов. Поскольку у компании большой опыт с подобными прогнозами (их алгоритмы предсказывали распространение лихорадки Зика в 2014-м и Эболы в 2016-м), этот подтвердился с высокой точностью. В течение нескольких недель появление вируса было зафиксировано во всех 11 городах, названных алгоритмами BlueDot.
А в феврале китайские ученые опубликовали ИИ-прогноз распространения коронавируса в стране до 20 апреля. Согласно графику на 16-й странице документа, рост числа заболевших должен был остановиться в марте на отметке чуть выше 80 тысяч, а количество новых случаев – опуститься практически до нуля. Прогноз в итоге подтвердился. Американская система DELPHI предсказывает почти на два месяца вперед и показывает, что в Штатах пандемия идет на спад и к середине июня новых случаев заражения практически не будет.
В России методики ИИ-прогнозирования коронавируса пока находятся на начальном этапе. Так, Сбербанк стимулирует разработку прогнозных моделей небольшими компаниями, совместно с сообществом разработчиков Open Data Science проводя конкурс COVID-19 Data Challenge. Его участники могут получить до миллиона рублей за наиболее точное предсказание количества подтвержденных случаев коронавируса на неделю вперед.
Tutu.ru также выложили свой датасет в открытый доступ и передали сообществу Open Data Science. Вероятно, в обозримом будущем разработчики начнут представлять прогностические ИИ-модели для России, аналогичные зарубежным. В отличие от человека искусственный интеллект работает быстрее и с бóльшим количеством информации, что делает технологию крайне востребованной в пугающем своей неопределенностью мире.