Технологии:
- html, xml, ajax, json, xpath
- многопоточность / multi-threaded
- Java (jaunt-api.com / jsoup.org / ...)
- PostgreSQL (индексы, типы данных)
- Proxy (знание типичных проблем ботов, нюансы и сложности работы через прокси)
- Captcha
Грабер должен запускаться через определенные интервалы времени (можно изменять) анализировать сайты, вытаскивать информацию и вносить все данные в БД. При реализации задачи необходимо предусмотреть работу через прокси.
- Меня интересуют сроки написания и примерная стоимость.