Необходима современная замена tesseract-oct
Необходимо разработать модуль (набор классов) для извлечения текстового слоя с изображения

ОС: Ubuntu 22.04

Требования:
- Предобученные модели для Русского и Английского языка
- Детектирование текстовых блоков (очень круто, если сможет адаптироваться, например, к 2м колонкам, но не обязательно)
- Извлечение текстового слоя с координатами и вероятностью
- Наложение текстового слоя на картинку с генерацией pdf
- Распознавание текста под наклоном
- Распознавание текста не на 1 прямой (например, на сшивки книги листы загибаются)
- Как можно меньше препроцессинга (желательно вообще без)

ВОЗМОЖНОСТЬ ДО ОБУЧЕНИЯ
- До-обучение детектирования текстовых блоков
- До-обучение распознавания символов
- Функционал создания обучающей выборки и возможности ее ручного исправления и корректировки

+ Минимальная инструкция ко всему этому добру

Читайте на 123ru.net

Частные объявления в Вашем городе, в Вашем регионе и в России

Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.