Есть система на django, которая парсит сайты поставщиков металлопроката и выводит данные с разных сайтов в виде единого каталога.
Фронтенд на react + next.js.
Сейчас реализован парсинг одного сайта, планируем добавить еще пачку источников
https://docs.google.com/document/d/106ExI86H0C9f0VznzhBi3hNKGJfRGBwQ/edit (можно привлечь кого-то другого конкретно на парсинг, но полностью проконтролировать его работу) а также реализовать ряд других доработок:
- Добавление прокси
- Снижение частоты парсига страниц, чтобы избежать избыточной нагрузки на источник
- Подготовить к размещению в kubernetes через докерфайл
- Прикрутить систему мониторинга celery(типа flower) и redis (grafana)
- Покрыть основные существующие процессы тестами