Добавить новость

В Чехове прошел открытый открытый турнир по волейболу

Организатор Конотопская: новогодний праздник должен стоить минимум 6 тыс руб

Лучшие студенческие СМИ выберут в столице

Около 120 тыс. кв. м нежилой недвижимости построили инвесторы в ЮАО с начала года





Новости сегодня

Новости от TheMoneytizer

Написание парсера для сайта apteka.ru

Необходимо написать парсер (веб-скраппер) для сайта apteka.ru.

Стек/Язык программировани/Используемые библиотеки абсолютно не важны.

Парсеру на вход поступают либо текстовые запросы, либо ссылки. Парсер должен вернуть .csv файл с данными.

Сразу напишу что это очень не тривиальная задача. Если вы не гуру в написании парсеров и не умеете обходить различные защиты, то лучше проходите мимо и не тратье ни свое, ни наше время.

На сайте стоит защита QRATOR + кастомная защита с капчей.

Парсер должен работать в двух режимах:
  • Через поиск на сайте
  • Через загруженные в парсер ссылки
Логика работы парсера через поиск:
  1. Загружаются запросы в парсер
  2. Парсер собирает со всех страниц выдачи все ссылки товаров
  3. Затем открывает все полученные ранее ссылки и с них собирает все необходимые данные
Логика работы парсера через загруженные ссылки:
  1. Загружаются ссылки в парсер
  2. Эти ссылки открываются парсером и с них собираются все необходимые данные
Данные которые необходимо собирать с карточек товара:
  • Наименование товара
  • Производитель
  • Наличие товара
  • Цена
  • Цена со скидкой
  • Форма выпуска (мазь, пилюли и т.п.)
  • Дозировка лекарства
  • Объем
  • Ссылка на товар
  • Ссылка на основное изображение товара
  • Дата сбора (в формате timestamp)
Стандартный регион для этого сайта - Москва, но нам необходимо собирать данные с абсолютно всех регионов этого сайта.
Регионы необходимо сдать в формате json:
{"Название региона на русском": "Занчение для установки этого региона в парсере",}

Также одно из важнейших требований - скорость сбора. Нам необходимо обрабатывать не менее 1 млн ссылок в сутки

В идеале будет использовать примерно такой шаблон кода:
  • Функция parse. Грубо говоря это main, в котором будет происходить распределение это сбор по поиску или по карточкам.
  • Функция parsePage. Здесь происходят все необходимые действия для сбора данных с поиска
  • Функция parseCard. Здесь происходят все необходимые действия для сбора данных с карточки товара
  • Функция makeRequest. Здесь происходят запросы к сайту
ВАЖНО. Критерии оценок по которым будет приниматься задача:
  1. Парсер работает и по поисковым запросам и по ссылкам
  2. Парсер собирает все необходимые данные с карточек
  3. Парсер верно собирает цены для различных регионов
  4. Вы написали json с регионами и значениями для их установки
  5. Парсер работает с необходимой для нас скоростью
  6. Парсер должен стабильно отработать в течении месяца на наших серверах

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Лучшую k-pop-команду наградили в ТРК "НЕБО"

Российские силы атаковали и уничтожили 12 пикапов, предназначенных для запуска беспилотников, в районе Николаева

Семь зданий Фарфоровского поста решили передвинуть в Петербурге ради ВСМ

Заблокировали трассы и мосты: почему в Абхазии вспыхнули массовые беспорядки

Музыкальные новости

Путин подписал закон о ратификации договора о стратегическом партнерстве РФ и КНДР

"Зенит" вырвал победу у "Ахмата" в драматичном матче

Владимир Путин дал поручение по строительству дороги к пункту пропуска на острове Большой Уссурийский в Хабаровском крае

Собянин: Сбито еще пять БПЛА в городских округах Раменское и Домодедово

Новости России

Семь зданий Фарфоровского поста решили передвинуть в Петербурге ради ВСМ

Фигурант дела о хищении у матери экс-чиновника МО РФ $900 тыс. осужден на 4 года

Как алтайский Маугли покоряет Москву

Более 230 работодателей Москвы и Московской области получили субсидии за трудоустройство новых сотрудников по программе субсидирования найма

Экология в России и мире

Валентина Алексеева вошла в топ участниц «Мисс Вселенной» благодаря платью

Компания ICDMC стала “Выбором потребителей” в 2024 году

Отличный выбор для электромоторов: питание для приключений с низкотемпературной литиевой батареей Power Queen 12V 280Ah для циклической работы

В Великом Новгороде пройдет Международный образовательный фестиваль «Открытое искусство»

Спорт в России и мире

Гауфф выиграла Итоговый турнир WTA - 2024

Финал теннисного Итогового турнира WTA пройдет без первой ракетки мира Соболенко

Фриц назвал смешным поведение Медведева в матче Итогового турнира

Медведев получил предупреждение за разбитую ракетку в матче с Фрицем на Итоговом турнире

Moscow.media

Открыто движение по реконструированной круговой развязке на улице Покрышкина в Волгограде

Осень в Рыжково....

Amazon планирует многомиллиардные инвестиции в разработчика конкурента ChatGPT

Владимир Путин дал поручение по строительству дороги к пункту пропуска на острове Большой Уссурийский в Хабаровском крае











Топ новостей на этот час

Rss.plus






Рижский вокзал оценили в миллиард рублей перед продажей

Студентов из Волоколамска научили уходу за животными в Московском зоопарке

День войск радиационной, химической и биологической защиты отмечают в России 13 ноября 2024 года

Эксперты объяснили необходимость "нулевого" ТО для автомобилей из Китая