Добавить новость

LogistiX: комплексная автоматизация складов и логистики

Суд в Москве арестовал мужчину, обвиняемого в убийстве 23-летней давности

Стало известно, как прошла премьера клипа Филиппа Киркорова

А вам - миллион! Школьные проекты из Ульяновской области получили федеральные премии



Новости сегодня

Новости от TheMoneytizer

Разработать анализатор html и pdf на принципах машинного обучения

Выложил по ссылки с файлами по выборке (1000 организаций из 44 000), по которой можно оценить реализуемость задачи, и ее трудоемкость. https://disk.yandex.ru/d/hidwuok8VBtW2A

Задача:
У нас есть работающий парсер, который скачивает данные по работникам образовательных учреждений и их классам/группам со всех сайтов этих самых учреждений по России.


Очень многие сайты сделаны таким образом, что там есть разделы с работниками.
И на некоторых сайтах есть отдельно информация по классам (и классным руководителям) и группам детских садов (и воспитателям).

Сейчас парсер выдает результат, и из полного списка организаций появились контакты для каждой четвертой организации. Парсер сделан алгоритмически, он не использует машинное обучение для анализа страниц и вложенных файлов.

Мы хотим заказать создание небольшого анализатора html страниц и файлов (pdf, jpg, jpeg, rtf, docx, doc, ppt, xlsx, xls и др), который был бы завернут в docker контейнер. Парсер бы направлял в контейнер html и файлы несколько одновременно по одной образовательной организации, а получал бы информацию по работникам и группам/классам.
Цель - достичь 80% качества разбора. То есть я вручную возьму 20 школ случайным образом, на которых информация по педагогам опубликована. И проверю, качественно ли спарсились данные. Если они спарсились качественно для 16 школ, значит результат хороший.
То есть от вас нужен именно docker контейнер, куда мы сами будем загружать html, pdf и другие файлы.



Что нужно получить из html и pdf:
- Получить перечень работников
- Фамилия (обязательно)
- Имя (обязательно)
- Отчество
- Должность (одна из списка. алгоритмически ее определяли с помощью регулярных выражений, см файл teachers.txt)
- Email
- Телефон
- Ссылка на фотографию (например, 101лицейспб.рф/upload/images/workers/workers_1.jpg )

- Получить перечень классов
- Номер (обязательно, например 9Б)
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Получить перечень групп
- Название (обязательно, например Звездочка или Группа)
- Вид: Подготовительная, Старшая, Средняя, Младшая, Ясли, Другая Если возраст детей
6-7 лет -> Подготовительная.
5-6 лет -> Старшая
4-5 лет -> Средняя
2-3 года -> Младшая
1.5-2 года -> Ясли
Бывают группы смешанные (когда возраст сразу нескольких групп, например 3-7 лет). Бывают группы, которые не являются напрямую садичными группами. Например, группа по рисованию. Там может быть возраст 4-12 лет. Такие группы нужно возвращать в виде "Другая".

Также бывают еще группы 1.6-2 года или 5-7 лет. Тут правило алгоритмически такое: если разница в возрасте не больше 2 лет, то это не смешанные группы. И мы всегда судим, что они ближе к старшей цифре.
То есть группа 5-7 - это тоже Подготовительная
Группа 1.6-2 - это Ясли
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Считаем что в одной образовательной организации не бывает полных однофамильцев.
Еще считаем, что на разных страничках одно и то же ФИО может быть написано полностью или сокращенно. Это один и тот же человек. Это нужно пытаться исправлять. Например Левушкина Наталья Ивановна и Левушкина Н.И. это один и тот же человек.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Суд заключил под стражу бывшего заместителя министра транспорта России

Путин подписал закон о расширении действия полиса ОСАГО на Белоруссию

LogistiX: комплексная автоматизация складов и логистики

В Хельсинки состоялась акция в поддержку открытия границы с Россией

Музыкальные новости

LG STYLER В ЦЕНТРЕ ВНИМАНИЯ НА ТАЙБЭЙСКОЙ НЕДЕЛЕ МОДЫ

Сергей Собянин. Главное за день

В Солнечногорске сотрудники Росгвардии почтили память коллег, погибших при исполнении служебного долга

Путин назначил нового прокурора Ярославской области

Новости России

Водитель Mitsubishi насмерть сбил женщину на севере Москвы

LogistiX: комплексная автоматизация складов и логистики

Newsweek смоделировал последствия ядерного удара США по России, КНР и КНДР

Российские застройщики предупредили о росте стоимости загородной недвижимости на 35-50%

Экология в России и мире

Волшебная новогодняя ночь для гостей Marins Park Hotel Нижний Новгород

Что посмотреть в Майкопе за один день: маршрут по главным достопримечательностям

Канделаки объяснила, почему Comedy Club не грозит закрытие

Гастроэнтеролог Садыков рассказал, как холодец влияет на уровень холестерина

Спорт в России и мире

Джокович объяснил, почему выбрал Энди Маррея своим тренером

Бублик проиграл на турнире в Санкт-Петербурге

Андреа Петкович заявила, что Синнера не включили в номинанты премии ATP из-за допинг-дела

WTA сделала заявление об отстранении второй ракетки мира

Moscow.media

Новодевичий монастырь снятый на телефон Xiaomi Redmi 12.

Hybrid разработал Creative Craft — продукт для генерации креативов с помощью технологий ИИ

Восход Луны над Колчимским камнем

Энергоколлапс в Тверской области оставил людей без света











Топ новостей на этот час

Rss.plus






Праздник к нам приходит: в Москве прошла закрытая премьера новогоднего фильма «Звёзды в Сибири»

Как подготовить машину к зиме

Лукин: очень рад забить за ЦСКА, но обидно, что не выиграли у "Рубина"

Санаторий в Солнечногорске вошел в число лучших в Подмосковье