Настройки — Парсинг — Общие

Панель содержит общие настройки парсинга и добавления фраз в таблицу.

Добавлять в таблицу фразы, содержащие не более X слов

Опция задает ограничение по максимальной длине фразы. Если фраза содержит больше слов, чем указано в данной настройке, фраза игнорируется программой и не добавляется в группу ни при каких условиях.

 

Режим сбора

Здесь выбирается режим обработки фраз в процессе сбора статистики для фраз в таблице.

При запуске нового парсинга (не возобновлении ранее начатого и приостановленного процесса, а запуска нового процесса) программа формирует очередь заданий в соответствии с выбранным режимом. Далее элементы этой очереди будут сохранены в проект, и дальнейшее выполнение задания будет производиться именно по этой очереди.

Такой механизм позволяет сохранять актуальный статус выполнения задачи даже в случае аварийного завершения работы программы. Также проект может быть скопирован на другой ПК, и процесс сбора может быть продолжен с места приостановки — по элементам ранее сформированной очереди.

Если вы нажимаете кнопку сбора той или иной статистики, и программа загружает окно с возможностью возобновления процесса, то это означает, что в проекте обнаружена незавершенная до конца очередь для этого вида задачи.

В этом случае вы можете либо завершить обработку такой очереди — продолжить сбор, либо обнулить ее сформировать новую с актуальными параметрами сбора — начать с начала.

  • Отмеченные записи

    В очередь обработки будут добавлены все отмеченные фразы под фильтром вне зависимости от того, снята ли статистика для этих фраз или нет.

    Режим может быть полезен при регулярном обновлении статистики поверх имеющихся данных: вы просто отмечаете запросы и запускаете сбор повторно, а программа перезаписывает старые результаты на новые.

    Если процесс завершится не для всех фраз, то вы не сможете понять, где старые данные, а где уже новые, обновленные! Мы рекомендуем очищать значения в ячейках и пользоваться режимом сбора для строк с неполученными данными, чтобы избавиться от этих рисков.
  • Строки с неполученными данными

    В очередь обработки будут добавлены фразы с отсутствующими данными по исследуемой статистике под фильтром. Если фраза уже имеет заполненные ячейки по той или иной статистике, то она будет пропущена.

    Это режим по умолчанию. Он наиболее удобен в работе, т.к. позволяет запускать сбор только для тех фраз, которые еще не имеют исследуемой статистики. При этом результаты обработки абсолютно наглядны: где пустая ячейка — там алгоритм еще не собрал данные, где заполненная — уже собрал.

    Если требуется обновить данные поверх ранее собранных, вы можете очистить значения в ячейках через инструмент очистки данных, а затем запустить сбор.

    Опционально для данного режима можно включить режим игнорирования существующих очередей заданий. Т.е. если по запускаемому виду задачи в проекте уже имеется ранее сформированная и незавершенная очередь заданий, то программа может опционально проигнорировать ее и предложить сформировать новую очередь.

  • Строки с неполученными данными и отмеченные, если есть

    В этом режиме в очередь заданий попадают фразы с незаполненной исследуемой статистикой или же отмеченные фразы.

    Режим является гибридным для двух предыдущих и используется в редкий случаях.

     

Деактивация потоков

Под потоками понимаются отдельные параллельно выполняющиеся подпроцессы, выполняющие основную задачу.

В процессе работы с сервисами могут возникать различные ошибки взаимодействия, сетевые ошибки или достигаться пользовательские ограничения.

Например, может временно может пропасть связь с сетью, прокси-сервер может перестать отвечать или будет достигнут установленный лимит капчи для аккаунта.

Здесь вы можете выбрать режим обработки таких критических ситуаций, указав, требуется ли сокращать кол-во активных потоков, и если да, то по каким правилам.

  • Завершать поток при исключении ...

    При возникновении критической ситуации (исключение прокси-сервера или аккаунта из-за ошибок или пользовательских ограничений), количество рабочих потоков будет сокращено на 1 единицу.

    Например, задача выполнялась в 10 потоков, и в процессе выполнения прокси-сервер исключается из обработки из-за сетевых ошибок. В этом случае кол-во потоков сократится до 9.

  • Завершать поток при исключении ..., если кол-во оставшихся ресурсов меньше кол-ва оставшихся потоков

    При возникновении критической ситуации (исключение прокси-сервера или аккаунта из-за ошибок или пользовательских ограничений), количество рабочих потоков будет сокращено на 1 единицу, если оставшееся кол-во ресурсов (прокси-серверов или аккаунтов) меньше кол-ва текущих рабочих потоков.

    Например, задача выполнялась в 10 потоков через 20 прокси-серверов.

    В процессе выполнения какой-то прокси-сервер исключается из обработки из-за сетевых ошибок. В этом случае кол-во прокси-серверов станет 20 - 1 = 19, и задача продолжит выполняться в 10 потоков. Аналогично кол-во потоков не будет уменьшаться до тех пор, пока кол-во прокси-серверов не сократится до 9 — тогда сработает условие, и потоки тоже сократятся до 9.

    Это режим по умолчанию, и мы рекомендуем его использовать совместно с гарантированно достаточными задержками между запросами в расчете на 1 прокси-сервер.

  • Не завершать поток при исключении ...

    При возникновении критической ситуации (исключение прокси-сервера или аккаунта из-за ошибок или пользовательских ограничений), количество рабочих потоков не будет сокращаться.

    Этот режим опасен тем, что на оставшиеся ресурсы (прокси-серверы или аккаунты) перекладывается нагрузка от потоков, которые могли бы быть остановлены.

    Например, вы запускали задачу в 5 потоков через 10 прокси-серверов и использовали задержки между запросами 30 секунд (т.е. каждый прокси-сервер участвовал в работе около 1 раза в 60 секунд).

    Если 9 из 10 исходных прокси-серверов будут исключены в процессе выполнения задачи, то оставшийся прокси-сервер ляжет нагрузка от всех 10 потоков, и запросы будут выполняться каждые 3 секунды, что в 10 раз меньше тех задержек, которые вы использовали в момент начала обработки.

Фильтрация символов

В процессе добавления фраз в проект они неизбежно проходят проверку на максимальную длину, из них вычищаются двойные пробелы между словами, а также выполняется фильтрация спец. символов.

Здесь вы можете определить список символов, которые будут удаляться из фраз или заменяться на символ пробела. Также можно включить принудительное приведение символов к нижнему регистру и автозамену буквы Ё.