Необходимо привести сканированные материалы в формате PDF в машиночитаемый текстовый формат (word /xlsx), с наличием возможности распознавания текста. Можно применять любые инструменты (любые ПО, конверторы, вручную и т.д.). В общем, любой подход. Главное - результат без ошибок.
Исходные файлы - сканы документов (содержат текст, таблицы, изображения). С них нужно извлечь текст, конвертировать в машиночитаемый вид.