Начало обзора здесь.
Первые необъяснимые результаты
Восьмая глава в каком то смысле переломная для всей истории эволюции глубоких сетей, рассказанной в книге. Здесь тревожные звоночки, которые звенели раньше, превращаются в первые проблемы работы с моделями, которые мы даже объяснить не можем, а можем только высказать какие-то предположения.
Сама глава посвящена оценке качества модели, обученной на учебном наборе данных. Качество понимается как точность предсказаний, сделанных моделью на проверочном, тестовом наборе.
В довольно простой задаче распознавания рукописных цифр, используя хорошо известную базу MNIST (60 тысяч обучающих образцов и десять тысяч тестовых) в упрощенном варианте MNIST-1D (всего 4000 обучающих образцов). Каждый упрощенный образец дискретизируется в 40 точках и на каждый из сорока входов модели подается горизонтальное смещение точки образца (поэтому набор данных и называется MNIST-1D). В модели два слоя по 100 элементов в каждом. Для оптимизации используется стохастический градиентный спуск. По ходу обучения ошибка классификации образцов, подаваемых на вход плавно снижается до нуля. Однако ошибки на тестовом наборе, которые начинают снижаться, дойдя до 40%, остаются на этом уровне. Значение функции потерь при этом даже увеличивается, приближаясь к единице, что означает, что модель делает те же ошибки, но с большей уверенностью.
На простых регрессионных моделях исследуются три источника ошибок (шум, дисперсия и смещение) при генерации тестовых данных и предлагаются методы сокращения дисперсии (за счет увеличения количества тестовых данных) и смещения за счет увеличения мощности модели (с шумом ничего поделать нельзя). При этом еще существует баланс дисперсии и смещения — увеличивая мощность модели, чтобы сократить ошибку смещения, мы получаем увеличение дисперсии как компоненты ошибки. Это значит, что для каждой модели существует некоторая оптимальная мощность для заданного объема обучающих данных.
Читать далее