Добавить новость

105 л.с. с одного литра объема. Стартует мелкосерийное производство российского бензинового мотора Gimura 1000S

Дамы на пике: в России становится больше женщин-руководителей

В Москве назвали топовые высокооплачиваемые профессии

В Татарстане в период новогодних праздников введут особый противопожарный режим



Новости сегодня

Новости от TheMoneytizer

Разработать анализатор html и pdf на принципах машинного обучения

Выложил по ссылки с файлами по выборке (1000 организаций из 44 000), по которой можно оценить реализуемость задачи, и ее трудоемкость. https://disk.yandex.ru/d/hidwuok8VBtW2A

Задача:
У нас есть работающий парсер, который скачивает данные по работникам образовательных учреждений и их классам/группам со всех сайтов этих самых учреждений по России.


Очень многие сайты сделаны таким образом, что там есть разделы с работниками.
И на некоторых сайтах есть отдельно информация по классам (и классным руководителям) и группам детских садов (и воспитателям).

Сейчас парсер выдает результат, и из полного списка организаций появились контакты для каждой четвертой организации. Парсер сделан алгоритмически, он не использует машинное обучение для анализа страниц и вложенных файлов.

Мы хотим заказать создание небольшого анализатора html страниц и файлов (pdf, jpg, jpeg, rtf, docx, doc, ppt, xlsx, xls и др), который был бы завернут в docker контейнер. Парсер бы направлял в контейнер html и файлы несколько одновременно по одной образовательной организации, а получал бы информацию по работникам и группам/классам.
Цель - достичь 80% качества разбора. То есть я вручную возьму 20 школ случайным образом, на которых информация по педагогам опубликована. И проверю, качественно ли спарсились данные. Если они спарсились качественно для 16 школ, значит результат хороший.
То есть от вас нужен именно docker контейнер, куда мы сами будем загружать html, pdf и другие файлы.



Что нужно получить из html и pdf:
- Получить перечень работников
- Фамилия (обязательно)
- Имя (обязательно)
- Отчество
- Должность (одна из списка. алгоритмически ее определяли с помощью регулярных выражений, см файл teachers.txt)
- Email
- Телефон
- Ссылка на фотографию (например, 101лицейспб.рф/upload/images/workers/workers_1.jpg )

- Получить перечень классов
- Номер (обязательно, например 9Б)
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Получить перечень групп
- Название (обязательно, например Звездочка или Группа)
- Вид: Подготовительная, Старшая, Средняя, Младшая, Ясли, Другая Если возраст детей
6-7 лет -> Подготовительная.
5-6 лет -> Старшая
4-5 лет -> Средняя
2-3 года -> Младшая
1.5-2 года -> Ясли
Бывают группы смешанные (когда возраст сразу нескольких групп, например 3-7 лет). Бывают группы, которые не являются напрямую садичными группами. Например, группа по рисованию. Там может быть возраст 4-12 лет. Такие группы нужно возвращать в виде "Другая".

Также бывают еще группы 1.6-2 года или 5-7 лет. Тут правило алгоритмически такое: если разница в возрасте не больше 2 лет, то это не смешанные группы. И мы всегда судим, что они ближе к старшей цифре.
То есть группа 5-7 - это тоже Подготовительная
Группа 1.6-2 - это Ясли
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Считаем что в одной образовательной организации не бывает полных однофамильцев.
Еще считаем, что на разных страничках одно и то же ФИО может быть написано полностью или сокращенно. Это один и тот же человек. Это нужно пытаться исправлять. Например Левушкина Наталья Ивановна и Левушкина Н.И. это один и тот же человек.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

В Москве назвали топовые высокооплачиваемые профессии

Хлебникова с новым лицом, Сенчукова после операции, недовольная Долина: звезды на фестивале «Легенды Ретро FM 2024»

Дамы на пике: в России становится больше женщин-руководителей

105 л.с. с одного литра объема. Стартует мелкосерийное производство российского бензинового мотора Gimura 1000S

Музыкальные новости

Ядовитая красота: врач Кутушов рассказал о скрытых рисках искусственных елок

Алексей Тузов для РБК Autonews:В России возник дефицит оригинальных запчастей

Смоленские энергетики продолжают работать в усиленном режиме из-за непогоды

Жители Республики Татарстан потратили на ювелирные изделия более 6,2 млрд рублей за 9 месяцев 2024 года

Новости России

Хлебникова с новым лицом, Сенчукова после операции, недовольная Долина: звезды на фестивале «Легенды Ретро FM 2024»

Дамы на пике: в России становится больше женщин-руководителей

Первые платные автоматизированные парковки обустроили в Кисловодске

Источник: «Спартак» нацелился на бывшего спортивного директора «Ювентуса»

Экология в России и мире

Секреты мотивации: как превратить рутину в увлекательный процесс

Андрей Губин завершил карьеру из-за проблем со здоровьем

Токсиколог Кутушов перечислил топ-5 наиболее токсичных веществ в бытовой химии

В Махачкале появилось спортивное оборудование от московской компании

Спорт в России и мире

Трофеи Северной Пальмиры. Бублик сыграет с Баутиста-Агутом, Мыскина и Давыденко поборются с Весниной и Бахрами

WTA сделала заявление об отстранении второй ракетки мира

Теннисистка Кудерметова планирует восстанавливаться после сезона в Казани

«Он талисман!» Беккер предложил «Ливерпулю» продлить контракт с Салахом

Moscow.media

Портативный ТСД корпоративного класса Saotron RT-T70

В Москве раскрыто убийство предпринимателя в 2001 году

Лето на верховых болотах Ленинградской области

Компания Pango Cars открыла 100-й дилерский центр в России











Топ новостей на этот час

Rss.plus






105 л.с. с одного литра объема. Стартует мелкосерийное производство российского бензинового мотора Gimura 1000S

Новогоднюю выставку по мотивам сказки «Снежная королева» открыли в Химках

Мир во что бы то ни стало!

Четыре «золота» взяли российские школьники на олимпиаде по математике в КНР