Привет. Меня зовут Олег, и я руковожу отделом компьютерного зрения в «Северсталь Диджитал». Мы занимаемся проектами для металлургической и добывающей промышленности. В 2024 году мы стали кластером «Искусственного интеллекта» в ИТ «Северстали» и стараемся соответствовать этому названию. Для этого не только применяем устоявшиеся, хорошо зарекомендованные подходы, но и активно пробуем новое.
Если провести сотню собеседований, отсмотреть пару десятков подрядчиков, видно, что многое в CV (Computer Vision) для промышленности продолжает крутиться вокруг хорошо зарекомендовавших себя детекторов: Yolo разных версий, Faster RCNN, Mask RCNN. Мы тоже во многом живём на них: безопасность на производстве контролируется Yolo-детекторами, дефекты поверхности металла в плоском прокате работают на Faster RCNN и Mask RCNN. Это уже бейзлайн, который зачастую и доходит до продуктива.
Но на месте не стоят ни архитектуры нейронок, ни подходы к решению задач.
Если посмотреть на текущие тренды, то можно выделить следующее:
● в статьях преобладают архитектуры, основанные на трансформерах;
● появляется все больше foundation-моделей;
● модели работают в открытом мире и учатся в self-supervised манере;
● инструменты для CV используют для автоматизации универсальные модели, например, CLIP, Dinov2, Segment Anything;
● развиваются few-shot, single-shot и zero-shot подходы, unsupervised и self-supervised обучение.
О том, для чего мы применяем это, я и расскажу подробнее.
Метрики
В первую очередь хотелось бы улучшать метрики моделей. Что ни говори, можно иметь очень удобные инструменты для команды, но гораздо важнее улучшать пользовательский опыт, снижать нагрузку на диспетчеров, которым приходится отсматривать предикты моделей.
Читать далее