Стек начинающего дата-сайентиста в 2026: инструменты для роста
Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье я разбирал ошибки в резюме джунов (и не только), которые снижают шансы попасть в ML. Сегодня расскажу, как упорядочить инструменты data scientist'а, чтобы легко адаптироваться в специальности.
Введение
Недавно мне показали проект по прогнозированию ремонта вагонов. Несколько десятков параметров, миллионы записей. Всё решение — один файл Jupyter Notebook и пара скриптов.
Я открыл этот файл. Две тысячи строк кода. Названия переменных вроде df_tmp_final_v3. Комментарии на смеси русского и английского. Сохранённые модели назывались model_good.pkl и model_production_maybe.pkl. Некоторые ячейки кода было страшно запускать. Ни документации, ни записи о проведённых тестах.
Узнаёте? Это частая реальность в области данных.
Вы не одиноки
Многие начинающие специалисты задают похожие вопросы:
Как работать, когда тестов уже несколько десятков? Вы перебираете настройки и алгоритмы, но через неделю не можете вспомнить, что дало лучший результат.
Как внедрить модель? В Notebook всё работает, но как превратить её в сервис, который сможет использовать ваше приложение?
Хорошая новость: для этих проблем уже есть решения.
На курсах об этом часто не говорят...