есть уже работающий парсер сделанный на PHP на linux debian.
есть API уже работающий с сайтом.
работает пока только с одним донором.
Задачи:
Изучить парсер который уже имеется для дальнейшего развития .
Вся работа документируется на Гитлаб .
Нужно настроить парсер на работу с другими донорами (5 разных сайтов).
Настроить API для работы парсера с сайтом .
Поддержка на постоянной основе (за отдельную оплату)
Описание работы парсера :
Парсер построен на PHP - собирает данные и отдает данные по API сайту.
Собирает данные компьютерных комплектующих с разных сайтов поставщиков
особенности сайтов
* сайты RTL
* авторизация обязательна
* на сайтах присутствуют разного рода защиты от бота (не на всех но есть)
* названия товаров иногда имеют слова и фразы добавленные в названия товара(очистить)
* в характеристиках товаров присутствуют фразы которые нужно очистить (не везде)
* почти у всех сайтов разная структура категорий(нужно привести все к 1 общей структуре)
особенности работы парсера
- сайт может стучаться по API к парсеру и принимать различные данные
* полный парсинг данных
* проверка на наличие у поставщика комплектующих (различные статусы)
* проверка цены (обновление цены на сайте)
* id товаров (присваивает каждому уникальный)
* повторяющиеся товары от разных поставщиков не конфликтуют (разные коды SKU генерация приставки берется от названия поставщика и прибавляется к коду товара)
* фильтры и очистка названий товара от добавляемых слов поставщиками
* парсер присваивает id категориям для того чтобы правильно добавлять товары на сайте
* парсер находит не нужные значения у продуктов и очищает их
что парсим:
* Название продукта (требуется фильтрация текста и очистка от определенных фраз)
* Код продукта
* Код продукта с генерацией префикса для различия одного и того же продукта от разных поставщиков
* Картинки продукта (ссылки)
* Ссылка на продукт
* Описание (требуется фильтрация текста и очистка от определенных фраз)
* Характеристики (требуется фильтрация текста и очистка от определенных фраз)
* наличие (доступность к заказу)
* статусы (если не доступен к заказу то есть статусы когда возможны или нет)
* категории групп товаров
* производитель