Вспомогательные команды
Очищение кэша загруженных страниц
Если вы забираете страницы в режиме unique, диггер сохраняет URL адреса всех обработанных страниц в специальном кэше и пропускает (не заходит вновь на) уже обработанные страницы в текущем запуске или во всех последующих запусках диггера.
Однако, иногда возникают ситуации, когда необходимо удалить страницу из кэша. Поскольку страница попадает в кэш автоматически при заходе на ее адрес, а при этом страница может не загрузиться (например, при блокировке прокси), то мы не сможем перечитать ее командой page_reload, если адрес этой страницы будет в кэше. Для того, чтобы отрабатывать подобные ситуации, мы добавили команду link_remove. Она удаляет URL текущей страницы из кэша и диггер сможет снова забрать ее.
Пример использования:
- walk:
to: http://somesite.com/page.html
mode: unique
do:
- find:
path: body
do:
# ПРОВЕРЯЕМ НЕ ЗАБЛОКИРОВАН ЛИ ПРОКСИ
- parse
- if:
match: "request has been blocked"
do:
# ПЕРЕКЛЮЧАЕМ ПРОКСИ
- proxy_switch
# УДАЛЯЕМ URL ТЕКУЩЕЙ СТРАНИЦЫ ИЗ КЭША
- link_remove
# ПЕРЕГРУЖАЕМ СТРАНИЦУ
- page_reload
Вот и все, что мы хотели рассказать вам про мета-язык сервиса Diggernaut.
Надеемся у вас все получится!
Вы так же можете заглянуть к нам в блог, где вы найдете полезные статьи и большое количество примеров раскрывающие всю мощь нашего сервиса и мета-языка в частности.
Если же у вас остались какие либо вопросы, обращайтесь к нам. Мы всегда будем рады помочь! Удачного парсинга!