Привет!
У нас есть проект, который распознает содержание
однотипных отсканированных документов.
Стек:
- opencv-python
- pdftabextract
- pytesseract
Требуется доработка алгоритмов для улучшения распознавания. Сейчас массив тестовых данных распознается с точностью 50%, а нужно поднять минимум до 65%.
То есть нужно анализировать файлы, которые не отрабатывают, выяснять причину этого и добавлять как правило в алгоритм.
В ответе напишите коротко о своем опыте в таких проектах + часовая ставка + телеграм для связи.
Спасибо!