Добавить новость
Другие новости Москвы и Московской области на этот час
Добавь свою новость бесплатно - здесь

Написание парсера для сайта apteka.ru

Необходимо написать парсер (веб-скраппер) для сайта apteka.ru.

Стек/Язык программировани/Используемые библиотеки абсолютно не важны.

Парсеру на вход поступают либо текстовые запросы, либо ссылки. Парсер должен вернуть .csv файл с данными.

Сразу напишу что это очень не тривиальная задача. Если вы не гуру в написании парсеров и не умеете обходить различные защиты, то лучше проходите мимо и не тратье ни свое, ни наше время.

На сайте стоит защита QRATOR + кастомная защита с капчей.

Парсер должен работать в двух режимах:
  • Через поиск на сайте
  • Через загруженные в парсер ссылки
Логика работы парсера через поиск:
  1. Загружаются запросы в парсер
  2. Парсер собирает со всех страниц выдачи все ссылки товаров
  3. Затем открывает все полученные ранее ссылки и с них собирает все необходимые данные
Логика работы парсера через загруженные ссылки:
  1. Загружаются ссылки в парсер
  2. Эти ссылки открываются парсером и с них собираются все необходимые данные
Данные которые необходимо собирать с карточек товара:
  • Наименование товара
  • Производитель
  • Наличие товара
  • Цена
  • Цена со скидкой
  • Форма выпуска (мазь, пилюли и т.п.)
  • Дозировка лекарства
  • Объем
  • Ссылка на товар
  • Ссылка на основное изображение товара
  • Дата сбора (в формате timestamp)
Стандартный регион для этого сайта - Москва, но нам необходимо собирать данные с абсолютно всех регионов этого сайта.
Регионы необходимо сдать в формате json:
{"Название региона на русском": "Занчение для установки этого региона в парсере",}

Также одно из важнейших требований - скорость сбора. Нам необходимо обрабатывать не менее 1 млн ссылок в сутки

В идеале будет использовать примерно такой шаблон кода:
  • Функция parse. Грубо говоря это main, в котором будет происходить распределение это сбор по поиску или по карточкам.
  • Функция parsePage. Здесь происходят все необходимые действия для сбора данных с поиска
  • Функция parseCard. Здесь происходят все необходимые действия для сбора данных с карточки товара
  • Функция makeRequest. Здесь происходят запросы к сайту
ВАЖНО. Критерии оценок по которым будет приниматься задача:
  1. Парсер работает и по поисковым запросам и по ссылкам
  2. Парсер собирает все необходимые данные с карточек
  3. Парсер верно собирает цены для различных регионов
  4. Вы написали json с регионами и значениями для их установки
  5. Парсер работает с необходимой для нас скоростью
  6. Парсер должен стабильно отработать в течении месяца на наших серверах

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Москве, в Московской области и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Москве

Ria.city

Балтфлот будет ходить с козырей: Россия готовит неожиданный ответ на охоту ЕС за нашими танкерами

Отпускные цены на красную икру в России снизились перед праздниками на фоне избытка запасов

Синоптики спрогнозировали облачную погоду с осадками в столице 15 февраля

Овчинский: Демонтировано 55 расселенных по реновации домов в ТиНАО

Музыкальные новости

Стало известно сколько Сергей Галицкий потратил денег на свой футбольный клуб в прошлом году

В Театре Дениса Матросова пройдет премьера спектакля «Комедианты. Осколки шоу-бизнеса»

Карин Кнайсль: Трамп мог бы посетить Москву на 9 мая

Норвежский лыжник Вальнес: стыдно, что Большунова допустили до гонки в Италии

Новости Москвы

Дмитрий Лохов о перспективах и вызовах для горнодобывающих компаний

«Страх отсутствия свободного дыхания»: как побороть зависимость от капель в нос

Финал проекта «Народный Ледниковый» пройдет в саду «Эрмитаж» в Москве

Где купить качественный матрас для здорового сна

Экология в Москве

Из Россию в Турцию запускают регулярный автобусный рейс с недорогими билетами: стали известны цены, маршрут и расписание

Свадьба вашей мечты в ресторане Cinema

Как сдавать жилье в аренду и не переживать за его сохранность? Установите умный дом

Коллекция Valentino весна-лето 2025 (SS-2025)

Спорт в Москве

Делрей-Бич (ATP). 1/4 финала. Кецманович играет с Гироном, Фриц встретится с Давидовичем-Фокина

Депутат Журова объяснила политикой разницу дел Синнера и Валиевой

Сафиуллин заменит дисквалифицированного Синнера на турнире ATP в Дохе

Олимпийский чемпион Вавринка — о деле Синнера: больше не верю в чистый спорт

Москва на Moscow.media

"Стоят голые и парят": жильцы дома на Лебедева в Томске жалуются на реки кипятка и аварийную теплотрассу

Секрет профессионального ухода за кожей раскрыт: AIRY AROMA

18 историй о мохнатых, которые на раз-два подтверждают, что без кота и жизнь не та. И без собаки тоже

Тюменская область вошла в топ-5 регионов по объему неплатежей по кредитам











Топ новостей на этот час в Москве и Московской области

Rss.plus






В Абхазии открылись избирательные участки на президентских выборах

Финал проекта «Народный Ледниковый» пройдет в саду «Эрмитаж» в Москве

Овчинский: Демонтировано 55 расселенных по реновации домов в ТиНАО

Балтфлот будет ходить с козырей: Россия готовит неожиданный ответ на охоту ЕС за нашими танкерами