Написать 2 парсера на python с обходом reCAPTCHA
Парсер 1:Пример запроса:
https://www.factual.com/data/t/places#filters={...Собирать следующие данные
(включая url) по запросу. Меняя центр Longitude и Latitude на примерно 0.0025 вы сдвигаетесь на 100 метро. По сути надо пройтись по всем координатам и вытащить данных, убрав дубликаты. API возвращает около 50 результатов которые можно скачать, поэтому возможно шаг надо делать меньше чтобы захватить все.
Ключевая проблема обойти reCAPTCHA, которая блокирует супер частые запросы к сайту.
- Factual ID url
- Name
- Address
- Locality
- Region
- Post code
- Country
- Neiborhood
- Tel
- Phone
- Latitude
- Longitude
- Chain Name
Пройтись по всем городам в списке
Парсер 2:
Скачать данные по всем ресторанам по Factual-ID.
Пример запроса:
https://www.factual.com/3dbed4e4-7079-4da7-bf41-59...Данные которые интересуют:
- website
- E-mail: (часто есть, но не всегда)
+ все данные от third-party identifiers
Сохранить скачанные рестораны с данными в csv.