Добавить новость
Другие новости Москвы и Московской области на этот час
Добавь свою новость бесплатно - здесь

Написание парсера для сайта apteka.ru

Необходимо написать парсер (веб-скраппер) для сайта apteka.ru.

Стек/Язык программировани/Используемые библиотеки абсолютно не важны.

Парсеру на вход поступают либо текстовые запросы, либо ссылки. Парсер должен вернуть .csv файл с данными.

Сразу напишу что это очень не тривиальная задача. Если вы не гуру в написании парсеров и не умеете обходить различные защиты, то лучше проходите мимо и не тратье ни свое, ни наше время.

На сайте стоит защита QRATOR + кастомная защита с капчей.

Парсер должен работать в двух режимах:
  • Через поиск на сайте
  • Через загруженные в парсер ссылки
Логика работы парсера через поиск:
  1. Загружаются запросы в парсер
  2. Парсер собирает со всех страниц выдачи все ссылки товаров
  3. Затем открывает все полученные ранее ссылки и с них собирает все необходимые данные
Логика работы парсера через загруженные ссылки:
  1. Загружаются ссылки в парсер
  2. Эти ссылки открываются парсером и с них собираются все необходимые данные
Данные которые необходимо собирать с карточек товара:
  • Наименование товара
  • Производитель
  • Наличие товара
  • Цена
  • Цена со скидкой
  • Форма выпуска (мазь, пилюли и т.п.)
  • Дозировка лекарства
  • Объем
  • Ссылка на товар
  • Ссылка на основное изображение товара
  • Дата сбора (в формате timestamp)
Стандартный регион для этого сайта - Москва, но нам необходимо собирать данные с абсолютно всех регионов этого сайта.
Регионы необходимо сдать в формате json:
{"Название региона на русском": "Занчение для установки этого региона в парсере",}

Также одно из важнейших требований - скорость сбора. Нам необходимо обрабатывать не менее 1 млн ссылок в сутки

В идеале будет использовать примерно такой шаблон кода:
  • Функция parse. Грубо говоря это main, в котором будет происходить распределение это сбор по поиску или по карточкам.
  • Функция parsePage. Здесь происходят все необходимые действия для сбора данных с поиска
  • Функция parseCard. Здесь происходят все необходимые действия для сбора данных с карточки товара
  • Функция makeRequest. Здесь происходят запросы к сайту
ВАЖНО. Критерии оценок по которым будет приниматься задача:
  1. Парсер работает и по поисковым запросам и по ссылкам
  2. Парсер собирает все необходимые данные с карточек
  3. Парсер верно собирает цены для различных регионов
  4. Вы написали json с регионами и значениями для их установки
  5. Парсер работает с необходимой для нас скоростью
  6. Парсер должен стабильно отработать в течении месяца на наших серверах

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Москве, в Московской области и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Москве

Ria.city

Никаких обид: Съевший пирожок с ртутью москвич не имеет претензий к отравившему его коллеге

Москалькова предупредила о звонящих от имени её сотрудников мошенниках

«Маленькая Леди» – школьная мода с безупречным стилем

Поведенческие факторы – стоит ли их накручивать?

Музыкальные новости

Чемпионат Сибирского округа Росгвардии по шахматам завершился в Иркутске

В Театре Дениса Матросова пройдет премьера спектакля «Комедианты. Осколки шоу-бизнеса»

Сотрудники Росгвардии задержали подозреваемую в краже шоколадной продукции из подмосковного гипермаркета

"Газпром" продает офисы и курорты в Москве и регионах: детали сделки

Новости Москвы

Владимир Кузьмин поздравит женщин с 8 марта большим весенним концертом

«Спартак» предложил 25 миллионов евро за Жедсона Фернандеша, пишут СМИ

В Москве с середины следующей недели начнет повышаться давление

Петр Чернышев и его дочь от Анастасии Заворотнюк выступили с номером, посвященным памяти актрисы

Экология в Москве

«Тренды года. День влюбленных… в вино»: В Москве пройдет главное винное событие февраля

День святого Валентина с Hilton Seychelles

Охрана Блогеров. Охрана Певцов. Охрана Концертов. Охрана концертов мероприятий.

Случайная находка: врачи ОДКБ им. Н.Н. Силищевой спасли ребёнка с тяжёлым заболеванием сердца

Спорт в Москве

Депутат Журова объяснила политикой разницу дел Синнера и Валиевой

Даниил Медведев вышел в полуфинал турнира ATP-250 в Марселе

Александрова вышла в полуфинал престижного турнира WTA в Дохе

Кафельников — о Синнере: если ты уверен в своей невиновности, почему ты принимаешь дисквалификацию

Москва на Moscow.media

Секрет профессионального ухода за кожей раскрыт: AIRY AROMA

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Фототур в Мангистау

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса











Топ новостей на этот час в Москве и Московской области

Rss.plus






В Абхазии явка на выборах президента к 12:00 превысила 21%

Суд в Москве арестовал мужчину, пытавшегося отравить знакомого ртутью

«Спартак» предложил 25 миллионов евро за Жедсона Фернандеша, пишут СМИ

Какое влияние на судьбу СССР оказала война в Афганистане