1.Парсинг ключевых слов с разных поисковиков,по выбору - например (гугл - украина,белорусия,молдавия итп) так и с другими поисковиками.
2.Должна быть возможность указывать какие ключи парсить (высокие,средние,низкие) также указывать длинну ключей.
3.После парсинга ключей, возможность парсинга выдачи по этим ключам, так же по поисковиках с выбором как указано выше.
4. Прсле парсинга выдачи и получения ссылок, возможность парсинга по этим ссылкам,и сбора необходимой информации - например (Название компании,телефон,email,описание, тоесть Taitl,Description)
5.Весь необходимый функционал для парсинга товаров с изображениями итп
8.Возможность подключения прокси серверов,интеграция по APPI с основными ходовыми сервисами, добавления прокси в ручную, либо загрузки из файла.
10.Возможность синхронизации с основными ходовыми сервисами разгадывания капчи,либо ввод капчи в ручную.
11.Возможность подключения дополнительных скриптов, например Java, для качественного парсинга в некоторых случаях
12.Мощный и продуманный фильтр (это самый наверно важный элемент)
13.Возможность добавдять уже имеющиеся ссылки для парсинга,как в ручную так и с загрузкой из файла
14.Отсеивание дублей
15.Добавление user agent в ручную,или из файла.
16.Парсинг по единственной ссылке на сайт,обход и сбор данных со всего сайта с возможностью указания глубины обхода
17.Возможность отфильтровывать вовремя парсинга (поставил на паузу указал слова, элементы,например такие ?.= добавить либо убрать,опять же эта фишка с Content Downloader.
И важно чтобы парсер не сабирал вместо намеров год дату итп,так же желательно чтобы в пустые поля не подстовлялись данные с соседних полей
как это зачастую бывает в парсерах - например указан телефон но не указан эл адрес,соседнее поле название компании,дак вот оно обязательно влезет на место эл адреса.
Лучше пустые поля, заполнять значением NUL, чтобы потом можно было отфильтровать по нему,например убрать NUL,таким образом мы добьемся чистоты и красоты будущего документа
в котором все будет на своем месте.
И еще, важно сделать интерфейс программы красивым,желательно черно белый чтобы был по умолчанию.
С последующей поддержкой, и доработкой,например клик по кнопки,скролинг,ручная или автоматическая вставка XPath,CSS,RegExp
Либо до и после необходимого елемента как в Content Downloader.