Вспомогательные команды

Очищение кэша загруженных страниц

Если вы забираете страницы в режиме unique, диггер сохраняет URL адреса всех обработанных страниц в специальном кэше и пропускает (не заходит вновь на) уже обработанные страницы в текущем запуске или во всех последующих запусках диггера.

Однако, иногда возникают ситуации, когда необходимо удалить страницу из кэша. Поскольку страница попадает в кэш автоматически при заходе на ее адрес, а при этом страница может не загрузиться (например, при блокировке прокси), то мы не сможем перечитать ее командой page_reload, если адрес этой страницы будет в кэше. Для того, чтобы отрабатывать подобные ситуации, мы добавили команду link_remove. Она удаляет URL текущей страницы из кэша и диггер сможет снова забрать ее.

Пример использования:

              - walk:
    to: http://somesite.com/page.html
    mode: unique
    do:
    - find:
        path: body
        do:
        # ПРОВЕРЯЕМ НЕ ЗАБЛОКИРОВАН ЛИ ПРОКСИ
        - parse
        - if:
            match: "request has been blocked"
            do:
            # ПЕРЕКЛЮЧАЕМ ПРОКСИ
            - proxy_switch
            # УДАЛЯЕМ URL ТЕКУЩЕЙ СТРАНИЦЫ ИЗ КЭША
            - link_remove
            # ПЕРЕГРУЖАЕМ СТРАНИЦУ
            - page_reload
                

Вот и все, что мы хотели рассказать вам про мета-язык сервиса Diggernaut.
Надеемся у вас все получится!

Вы так же можете заглянуть к нам в блог, где вы найдете полезные статьи и большое количество примеров раскрывающие всю мощь нашего сервиса и мета-языка в частности.

Если же у вас остались какие либо вопросы, обращайтесь к нам. Мы всегда будем рады помочь! Удачного парсинга!