Работаем с DOM структурой

Атрибуты

У ноды могут быть установлены определенные атрибуты (например: style или class). В ряде случаев может потребоваться удалить эти атрибуты, для этого можно воспользоваться командой attr_remove. Она удалит все указанные атрибуты во всех нодах текущего блока.

С командой должен быть передан параметр selector в который нужно передать селектор для атрибутов, подлежащих удалению. Для удаления всех атрибутов, можно передать wildcard селектор *.

Возьмем для примера HTML код:

          <div class="container">
    <span style="width: 200px;">some text</span>
    <a href="link.html">some link</a>
    <span style="width: 400px;">another text</span>
</div>
          

Примеры использования команды:

              - find:
    path: div
    do:
    - attr_remove:
        selector: '*'
    - parse:
        format: html

    # УДАЛЕНЫ ВСЕ АТРИБУТЫ, В РЕГИСТРЕ БУДЕТ:
    # <span>some text</span>
    # <a>some link</a>
    # <span>another text</span>
              
              - find:
    path: div
    do:
    - attr_remove:
        selector: style
    - parse:
        format: html

    # УДАЛЕН ТОЛЬКО АТРИБУТ STYLE, В РЕГИСТРЕ БУДЕТ:
    # <span>some text</span>
    # <a href="link.html">some link</a>
    # <span>another text</span>
              

В следующей главе мы узнаем как разбивать содержимое блока на блоки вручную.