Мы в Telegram
Добавить новость

Yandex N. V. подала заявку на делистинг акций с Мосбиржи

Торжественное посвящение в юнармейцы состоится в Музее Победы

Столичные росгвардейцы совершили около 4,5 тыс. выездов по сигналу «тревога» за минувшую неделю

В центре Петербурга столкнулись Ferrari, BMW и Mercedes





Новости сегодня

Новости от TheMoneytizer

Разработка приложения-парсер на Node. JS для Яндекс.Wordstat




1. Словарь терминов
1.1 Платформа запуска: платформа Node.js (версия v14.16.0, npm версии 7.6.3), расположенная на сервере, где ведется основная разработка;

1.2 База данных: MongoDB (версия v4.2.12), расположенная на сервере, где ведется основная разработка на порту 27017;

1.3 Яндекс.Wordstat: серверное приложение компании Яндекс, хранящая историю поисковых запросов, расположена по адресу https://wordstat.yandex.ua/;

1.4 Обращение к Яндекс.Wordstat: процесс получения информации одним пользователем об истории запроса по одному ключевому слову с Яндекс.Wordstat;

1.5 Ниша - семантическая единица, определяющая инвестиционные возможности, представляет из себя комбинацию лексем (в рамках данного ТЗ, одна лексекма строго соответствует одной нише;

1.6 Лексема - составная единица ниши, представляет из себя массив слов, которые ьогут быть использованиы для определения одной и той же ниши;

1.7 Ключевое слово запроса: слово по которому ищется информация на Яндекс.Wordstat о количестве поисковых запросов;

1.8 Регион запроса: Название региона по которому ищется информация на Яндекс.Wordstat о количестве поисковых запросов;

1.9 Логирование: запись в реальном времени об успешных и неуспешных результатах работы приложения , а также об ошибках.

2. Назначение разработки
Приложение Парсер запускается в режиме реального времени, осуществляет обращение к сайту https://wordstat.yandex.ua/ раздел history, забирает информацию об истории запросов по заданному списку ключевых слов и записывает полученную информацию в БД.

3. Технические условия и требования

3.1 Парсер должен запускается на платформе Node.js;

3.2 Парсер должен быть написан на языке JavaScript в режиме strict;

3.3 Приложение должно работать с БД MongoDB;

3.4 Должна быть предусмотрена гибкая настройка приложения (аккаунты пользователей Яндекс.Wordstat, proxy IP адреса для подмены при обращениях к Яндекс.Wordstat, параметры, задающие поведение пользователя);

3.5 Необходимо обеспечить достаточный уровень логирования работы программы.

4. Логика работы приложения
4.1 Приложение принимает на вход следующую информацию из БД:
4.1.1 из коллекции БД parserAccounts массив объектов:

{
searcher: "Yandex", // Поисковая система
login: String, // Логин доступа к Яндекс.Wordstat
passwd: String, // Пароль доступа к Яндекс.Wordstat
};

4.1.2 из коллекции БД parserProxy массив объектов:
{
proxyserver: String, // Адрес proxy-сервера
proxyip: String, // Прокси IP bp из набора для proxy-сервера
};

4.1.3 из коллекции БД parserAnticaptcha массив объектов:
{
acservice: String, // Адрес сервиса антикапчи
ackey: String, // Ключ доступа к сервису антикапчи
};

4.1.4 из коллекции БД parserBehavior объект:
{
searcher: "Yandex", // Поисковая система
timeout: Number, // Задержки, выполняемые каждым потоком между запросами к Яндекс.Wordstat
amountstreams: Number, // Максимальное общее количество потоков при работе с Яндекс.Wordstat
};

4.1.5 из коллекции БД lexems массив объектов:
{
name: String, // Текст ключевого запроса
forms: [String], // Массив слов
};

4.1.6 из коллекции БД niches массив объектов:
{
name: String, // Имя ниши
};

4.1.7 из коллекции БД regions массив объектов:
{
name: String, // Название региона
country: String, // Название страны
};

4.2 Для каждой ниши из коллекции niches и для каждого региона из коллеции regions составляется ключевой запрос с учетом всех вариантов слов, содержащихся в соответствующей лексеме;

4.3 Для каждого получившегося списка ключевых запросов одной ниши Парсер осуществляет обращение на Яндекс.Wordstat и извлекает информацию о количестве поисковых запросов за последние 24 месяца.

4.4 В процессе обращения на Яндекс.Wordstat совершается подмена IP из имеющегося набора IP адресов.

4.5 В процессе обращения на Яндекс.Wordstat обходится капча при помощи соответствующей службы или набора служб.

4.6 При обращении на Яндекс.Wordstat имитируется естественное поведение пользователя, согласно первоначальным настройкам.

4.7 Производится сложение получившихся массивов количеств поисковых запросов по совпадающим периодам;

4.8 Если обращение успешно, то формируется новая запись массива количеств поисковых запросов или обновляется старая запись в БД в коллекцию requests следующей структуры:

{

niche: ObjectId, // Ссылка на нишу

nameniche: String,// Имя ниши

date: Date, // Время обращения к Яндекс.Wordstat

region: ObjectId, // Регион запроса

nameregion: String,// Имя региона запроса

lastperiod: Date, // Последний период, по которому есть информация

volumes: [Number], // Массив (24) числа поисковых запросов по периодам, начиная с <lastperiod>

}

4.9 При успешном обращении также делается соответствующая запись в лог-файл.

4.10 При ошибке делается соответствующая запись в лог-файл.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Курс доллара на Мосбирже демонстрирует рост

Какие 4 территории Запад не отдал нам после 9 мая 1945-го. Сталин требовал

Антонов назвал последствия для США из-за запрета на импорт российского урана

Чем известен генерал-лейтенант Кузнецов из Минобороны РФ и за что его задержали?

Музыкальные новости

Бурятский госцирк представил новое руководство: Театр и цирк, Россия и культура, дети

Патриотическую акцию «Синий платочек» провели в Нижнем Новгороде в день прибытия «Поезда Победы»

Сергей Собянин. Главное за день

Как Россия побеждает в Африке: Волна военных переворотов приносит Путину новых союзников

Новости России

Специалист Афанасьевский рассказал об особенностях инвестиций в золото

В подмосковном Красногорске открыли движение на подъезде к строящейся детской больнице

Благоустройство Центральной части Дедовска в округе Истра завершится в этом году

Фонд «Милосердие» помог липецким яхтсменам выступить на Кубке России

Экология в России и мире

Новые дорожные ирригаторы Revyline RL 630 Peach Fuzz поступили в тюменский филиал

C 13 по 19 мая 2024 года проходит Неделя профилактики повышения артериального давления

Показ Academy Kaurtseva Fashion Day III 24

Дети из Узбекского землячества Бурятии увидели театр кукол «Ульгэр»: Россия и Культура

Спорт в России и мире

Даниил Медведев одолел 121-ю ракетку мира Меджедовича и вышел в 1/8 финала Рима

Финалистка юниорского Уимблдона-2023 получила временное отстранение за допинг

Новак Джокович с позором вылетел с турнира в Риме

Хачанов вышел в третий круг турнира ATP в Риме

Moscow.media

Еще 36 м надвижки на мосту через Каму

Сергей АРУТЮНОВ на своём сольном концерте в Государственном Кремлёвском Дворце презентовал дуэт с Родионом Газмановым. Артисты вместе исполнили хит “Люси”

OpenAI готовит конкурента поисковику Google, но на базе ИИ

Портативный ТСД корпоративного класса Saotron RT-T70











Топ новостей на этот час

Rss.plus






Благоустройство Центральной части Дедовска в округе Истра завершится в этом году

Какие 4 территории Запад не отдал нам после 9 мая 1945-го. Сталин требовал

Издательство «Просвещение» будет выпускать детские игрушки

Антонов назвал последствия для США из-за запрета на импорт российского урана