Работаем с DOM структурой
Атрибуты
У ноды могут быть установлены определенные атрибуты (например: style или class). В ряде случаев может потребоваться удалить эти атрибуты, для этого можно воспользоваться командой attr_remove. Она удалит все указанные атрибуты во всех нодах текущего блока.
С командой должен быть передан параметр selector в который нужно передать селектор для атрибутов, подлежащих удалению. Для удаления всех атрибутов, можно передать wildcard селектор *.
Возьмем для примера HTML код:
<div class="container">
<span style="width: 200px;">some text</span>
<a href="link.html">some link</a>
<span style="width: 400px;">another text</span>
</div>
Примеры использования команды:
- find:
path: div
do:
- attr_remove:
selector: '*'
- parse:
format: html
# УДАЛЕНЫ ВСЕ АТРИБУТЫ, В РЕГИСТРЕ БУДЕТ:
# <span>some text</span>
# <a>some link</a>
# <span>another text</span>
- find:
path: div
do:
- attr_remove:
selector: style
- parse:
format: html
# УДАЛЕН ТОЛЬКО АТРИБУТ STYLE, В РЕГИСТРЕ БУДЕТ:
# <span>some text</span>
# <a href="link.html">some link</a>
# <span>another text</span>
В следующей главе мы узнаем как разбивать содержимое блока на блоки вручную.