Добавить новость

Удобное бронирование жилья в Дивноморском и Геленджике с помощью ТутОтель

Пророчества на Год Змеи: разрушение мавзолея, мировая война и вторжение НЛО

Четыре «золота» взяли российские школьники на олимпиаде по математике в КНР

В Смоленске секретарь регионального отделения «Единой России» Игорь Ляхов открыл Декаду приёмов граждан



Новости сегодня

Новости от TheMoneytizer

Разработать анализатор html и pdf на принципах машинного обучения

Выложил по ссылки с файлами по выборке (1000 организаций из 44 000), по которой можно оценить реализуемость задачи, и ее трудоемкость. https://disk.yandex.ru/d/hidwuok8VBtW2A

Задача:
У нас есть работающий парсер, который скачивает данные по работникам образовательных учреждений и их классам/группам со всех сайтов этих самых учреждений по России.


Очень многие сайты сделаны таким образом, что там есть разделы с работниками.
И на некоторых сайтах есть отдельно информация по классам (и классным руководителям) и группам детских садов (и воспитателям).

Сейчас парсер выдает результат, и из полного списка организаций появились контакты для каждой четвертой организации. Парсер сделан алгоритмически, он не использует машинное обучение для анализа страниц и вложенных файлов.

Мы хотим заказать создание небольшого анализатора html страниц и файлов (pdf, jpg, jpeg, rtf, docx, doc, ppt, xlsx, xls и др), который был бы завернут в docker контейнер. Парсер бы направлял в контейнер html и файлы несколько одновременно по одной образовательной организации, а получал бы информацию по работникам и группам/классам.
Цель - достичь 80% качества разбора. То есть я вручную возьму 20 школ случайным образом, на которых информация по педагогам опубликована. И проверю, качественно ли спарсились данные. Если они спарсились качественно для 16 школ, значит результат хороший.
То есть от вас нужен именно docker контейнер, куда мы сами будем загружать html, pdf и другие файлы.



Что нужно получить из html и pdf:
- Получить перечень работников
- Фамилия (обязательно)
- Имя (обязательно)
- Отчество
- Должность (одна из списка. алгоритмически ее определяли с помощью регулярных выражений, см файл teachers.txt)
- Email
- Телефон
- Ссылка на фотографию (например, 101лицейспб.рф/upload/images/workers/workers_1.jpg )

- Получить перечень классов
- Номер (обязательно, например 9Б)
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Получить перечень групп
- Название (обязательно, например Звездочка или Группа)
- Вид: Подготовительная, Старшая, Средняя, Младшая, Ясли, Другая Если возраст детей
6-7 лет -> Подготовительная.
5-6 лет -> Старшая
4-5 лет -> Средняя
2-3 года -> Младшая
1.5-2 года -> Ясли
Бывают группы смешанные (когда возраст сразу нескольких групп, например 3-7 лет). Бывают группы, которые не являются напрямую садичными группами. Например, группа по рисованию. Там может быть возраст 4-12 лет. Такие группы нужно возвращать в виде "Другая".

Также бывают еще группы 1.6-2 года или 5-7 лет. Тут правило алгоритмически такое: если разница в возрасте не больше 2 лет, то это не смешанные группы. И мы всегда судим, что они ближе к старшей цифре.
То есть группа 5-7 - это тоже Подготовительная
Группа 1.6-2 - это Ясли
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Считаем что в одной образовательной организации не бывает полных однофамильцев.
Еще считаем, что на разных страничках одно и то же ФИО может быть написано полностью или сокращенно. Это один и тот же человек. Это нужно пытаться исправлять. Например Левушкина Наталья Ивановна и Левушкина Н.И. это один и тот же человек.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Мария Захарова: страны НАТО сейчас больны и в их двери биться не нужно

Формула еды: заразившиеся ботулизмом требуют миллионных компенсаций

Бурак Озчивит приехал в Россию для съемок в сериале

Страховщики назвали самый угоняемый автомобиль в 2024 году в России

Музыкальные новости

Смоленские энергетики продолжают работать в усиленном режиме из-за непогоды

Рахимов — о ничьей с ЦСКА: «Конечно, это упущенная победа, но можно говорить о закономерности результата»

Уссурийский дизельный дивизион Желдорреммаш освоил новый вид продукции

Ядовитая красота: врач Кутушов рассказал о скрытых рисках искусственных елок

Новости России

В Смоленске секретарь регионального отделения «Единой России» Игорь Ляхов открыл Декаду приёмов граждан

«Динамо» сыграло в ничью с «Ахматом» благодаря голу вратаря после углового

Школьники из Подольска победили на чемпионате России по лазертагу

Введен запрет на езду без зимних шин: как водителям не получить штраф

Экология в России и мире

Интересные каналы в Telegram. Лучшие каналы в Telegram.

Секреты мотивации: как превратить рутину в увлекательный процесс

Ядовитая красота: врач Кутушов рассказал о скрытых рисках искусственных елок

Токсиколог Кутушов перечислил топ-5 наиболее токсичных веществ в бытовой химии

Спорт в России и мире

Кафельников назвал позором допинговые скандалы ведущих теннисистов

«Он талисман!» Беккер предложил «Ливерпулю» продлить контракт с Салахом

Шнайдер: договорились с Андреевой играть весь сезон вместе на ТБШ и WTA 1000

Хачанов намерен вернуться в топ-10 рейтинга ATP в следующем году

Moscow.media

Колчимский камень

Компания Pango Cars открыла 100-й дилерский центр в России

Михаил Мальцев: "Низкий туррейтинг Свердловской области – из-за нехватки мест размещения"

Bluetooth-сканер штрих-кодов SAOTRON P04 на базе CMOS-матрицы











Топ новостей на этот час

Rss.plus






Пророчества на Год Змеи: разрушение мавзолея, мировая война и вторжение НЛО

Страховщики назвали самый угоняемый автомобиль в 2024 году в России

Андрей Воробьев: в Подмосковье появятся 5 питающих центров в 2026–2027 годах

Мария Захарова: страны НАТО сейчас больны и в их двери биться не нужно