Добавить новость

Написание парсера для сайта apteka.ru

Необходимо написать парсер (веб-скраппер) для сайта apteka.ru.

Стек/Язык программировани/Используемые библиотеки абсолютно не важны.

Парсеру на вход поступают либо текстовые запросы, либо ссылки. Парсер должен вернуть .csv файл с данными.

Сразу напишу что это очень не тривиальная задача. Если вы не гуру в написании парсеров и не умеете обходить различные защиты, то лучше проходите мимо и не тратье ни свое, ни наше время.

На сайте стоит защита QRATOR + кастомная защита с капчей.

Парсер должен работать в двух режимах:
  • Через поиск на сайте
  • Через загруженные в парсер ссылки
Логика работы парсера через поиск:
  1. Загружаются запросы в парсер
  2. Парсер собирает со всех страниц выдачи все ссылки товаров
  3. Затем открывает все полученные ранее ссылки и с них собирает все необходимые данные
Логика работы парсера через загруженные ссылки:
  1. Загружаются ссылки в парсер
  2. Эти ссылки открываются парсером и с них собираются все необходимые данные
Данные которые необходимо собирать с карточек товара:
  • Наименование товара
  • Производитель
  • Наличие товара
  • Цена
  • Цена со скидкой
  • Форма выпуска (мазь, пилюли и т.п.)
  • Дозировка лекарства
  • Объем
  • Ссылка на товар
  • Ссылка на основное изображение товара
  • Дата сбора (в формате timestamp)
Стандартный регион для этого сайта - Москва, но нам необходимо собирать данные с абсолютно всех регионов этого сайта.
Регионы необходимо сдать в формате json:
{"Название региона на русском": "Занчение для установки этого региона в парсере",}

Также одно из важнейших требований - скорость сбора. Нам необходимо обрабатывать не менее 1 млн ссылок в сутки

В идеале будет использовать примерно такой шаблон кода:
  • Функция parse. Грубо говоря это main, в котором будет происходить распределение это сбор по поиску или по карточкам.
  • Функция parsePage. Здесь происходят все необходимые действия для сбора данных с поиска
  • Функция parseCard. Здесь происходят все необходимые действия для сбора данных с карточки товара
  • Функция makeRequest. Здесь происходят запросы к сайту
ВАЖНО. Критерии оценок по которым будет приниматься задача:
  1. Парсер работает и по поисковым запросам и по ссылкам
  2. Парсер собирает все необходимые данные с карточек
  3. Парсер верно собирает цены для различных регионов
  4. Вы написали json с регионами и значениями для их установки
  5. Парсер работает с необходимой для нас скоростью
  6. Парсер должен стабильно отработать в течении месяца на наших серверах

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Москве, в Московской области и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Москве

Ria.city

Какой праздник 16 февраля: что нужно сделать, чтобы новорожденные дети росли здоровыми

Владимир Кузьмин поздравит женщин с 8 марта большим весенним концертом

Обвиняемого по делу о ртутных пирогах привезли в Зюзинский суд

В Москве с середины следующей недели начнет повышаться давление

Музыкальные новости

Чемпионат Сибирского округа Росгвардии по шахматам завершился в Иркутске

ЦБ решил сохранить ключевую ставку! Как решение повлияет на рынок жилья?

В Театре Дениса Матросова пройдет премьера спектакля «Комедианты. Осколки шоу-бизнеса»

Ракета SpaceX вывела на орбиту более 20 интернет-спутников Starlink

Новости Москвы

Женщину, которая продала новорожденную дочь, арестовали на два месяца

Обвиняемого по делу о ртутных пирогах привезли в Зюзинский суд

Петр Чернышев и его дочь от Анастасии Заворотнюк выступили с номером, посвященным памяти актрисы

Фонд «Защитники Отечества» приглашает к участию в онлайн-марафоне «Подвиг женщин Победы»

Экология в Москве

Гастроэнтеролог Садыков перечислил 5 эффективных натуральных средств против запаха изо рта

Обязательно включите это масло в свой рацион!

Охрана Блогеров. Охрана Певцов. Охрана Концертов. Охрана концертов мероприятий.

Случайная находка: врачи ОДКБ им. Н.Н. Силищевой спасли ребёнка с тяжёлым заболеванием сердца

Спорт в Москве

Медведев вышел в полуфинал турнира ATP в Марселе

Сафиуллин заменит дисквалифицированного Синнера на турнире ATP в Дохе

Олимпийский чемпион Вавринка — о деле Синнера: больше не верю в чистый спорт

Марсель (ATP). 1/4 финала. Чжан сыграет с Бергсом, Медведев встретится со Штруффом

Москва на Moscow.media

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Портативный сканер штрих-кодов Heroje C1271 промышленного класса

18 историй о мохнатых, которые на раз-два подтверждают, что без кота и жизнь не та. И без собаки тоже

Учимся с умом: не дайте ИИ задурить вам голову











Топ новостей на этот час в Москве и Московской области

Rss.plus






SHOT: отравившийся ртутью москвич отказался от претензий к знакомому

Владимир Кузьмин поздравит женщин с 8 марта большим весенним концертом

В Абхазии явка на выборах президента к 12:00 превысила 21%

Никаких обид: Съевший пирожок с ртутью москвич не имеет претензий к отравившему его коллеге