Виды обработчиков и кеширования
Некоторые модули сбора статистики поддерживают 2 вида обработчиков: браузерный и безбраузерный.
Безбраузерный обработчик
Безбраузерный обработчик — это классический базовый метод обращений к сервису, которые не требует выполнения сложных скриптов.
За счет своей простоты, как правило, он работает стабильней, быстрей, не требует много ресурсов, поддерживает все виды прокси-серверов.
По умолчанию мы рекомендуем использовать этот вид обращений, если нет других особенностей при сборе статистики.
Например, если на этапе входе в аккаунты возникают непреодолимые в автоматическом режиме верификации, или если в ходе сбора статистики у вас есть подозрения, что выдается много капчи, то можно попробовать активировать браузерный обработчик и перезапустить программу.
Браузерный обработчик
Браузерный обработчик — это альтернативный режим, в котором программа взаимодействует с выбранным сервисом через компонент браузера. В некоторых случаях это позволяет выполнять более сложные задачи за счет возможности выполнения скриптов и предусмотренной на странице сложной логики.
Одновременно с ростом возможней растут и трудности при сборе статистики: браузер занимает оперативную память, хранит кеш на диске, загружает процессор, сложнее диагностируется возможные ошибки при работе, не поддерживаются SOCKS прокси-серверы и т.д.
Мы рекомендуем использовать этот обработчик, если безбраузерная версия не справляется (не поддерживает некоторые функции или не позволяет выполнить некоторые сложные операции).
Для связи с браузером программа запускает дочерний процесс. Если при подключении к дочернему процессу возникают ошибки, воспользуйтесь этой инструкцией.
Виды кеширования браузерного обработчика
При работе через браузер программа сохраняет на диске кеш, который включает в себя не только статистический контент, но и файлы cookie.
Программа поддерживает 2 вида работы с кешем: изолированный и общий.
Изолированный режим кеширования
Для каждого IP-адреса (вашего основного и прокси-сервера) создается отдельная директория для хранения кеша. При повторных обращениях через тот же IP-адрес будут использоваться те же cookie. Разные задачи парсинга могут создавать независимые директории кеша для разных IP-адресов.
При работе в этом режиме запросы через один IP-адрес всегда отправляются с учетом cookie, полученных при работе через этот же IP-адрес, а не через общие смешанные cookie.
При работе в этом режиме программа будет вынуждена создать отдельную вкладку браузера для каждого потока и для каждого IP-адреса.
Например, при работе в 1 поток и 1 IP-адрес будет создано 1 окно браузера, при работе в 2 потока и 3 IP-адреса будут созданы 2*3 = 6 окон браузера и т.д.
Используйте этот режим только при работе с небольшим кол-вом потоков и прокси-серверов. При этом подразумевается, что прокси-серверы обладают наилучшим качеством, выделенные и стабильные.
Если запустить сбор в 100 прокси-серверов и 20 потоков, то потребуется открыть 2000 вкладок браузера — такая задача просто не выполнится и возникнет ошибка.
Если в настройках программы вы задали много прокси-серверов для работы с другими задачами, вы можете запретить их использованиеи создать отдельный короткий список хороших прокси-серверов для выполнения конкретной задачи в браузерном режиме с изолированным кешем.
Общий режим кеширования
При работе в этом режиме программа создаст равное кол-ву потоков кол-во окон браузера, и каждое окно браузера будет работать со своей директорией кеша. Разные задачи парсинга могут создавать независимые директории кеша для своих окон браузера.
В процессе работы окна браузера могут менять IP-адреса согласно настройкам, продолжая при этом использовать ранее созданный кеш. Другими словами, каждое окно браузера будет отправлять запросы через разные IP-адреса, не меняя при этом файлы кеша и cookie.
Этот режим лучше подходит для многопоточной работы с точки зрения производительности. Оценить безопасности ротации IP-адресов можете только вы сами на основе опыта.