Comment remplacer le balisage dans les fichiers HTML stockés sur des serveurs Unix / Solaris?

Je cherche un moyen de récupérer un morceau de balisage qui se trouve dans plus de 1000 fichiers HTML publiés sur des serveurs Unix (exécutés via apache) et de remplacer le balisage par des noeuds vides ou un balisage HTML alternatif.

ex:

Trouver

.....{a bunch of interior markup} ....

Remplacer par {vide}

ex 2:

Rechercher

Remplacez

{some HTML markup needed here}

Si c’est vraiment simple (aucune parsing nécessaire, balisage bien connu et pas l’un dans l’autre), le moyen le plus rapide devrait être:

(En Zsh ou Bash)

 perl -pi -e 's#
.*?
#new content#g' /path/to/files/**/*.html(.)

Cela devrait faire l’affaire pour tout remplacer entre tous ...

.....

... par ...newcontent...

Mais attention, cela ne fonctionnera PAS pour ...

...

...

...

....

Une façon de le faire: utiliser Python avec BeautifulSoup pour parsingr le fichier HTML, le remplacer et réécrire.

Si le balisage est écrit de la même manière dans tous les fichiers, sed ou perl sera beaucoup plus rapide que BeautifulSoup ou similaire, mais il est également plus difficile de faire preuve de souplesse pour exprimer le même balisage HTML sous forme de texte.

Avez-vous un exemple plus concret du type de balisage que vous recherchez et, idéalement, de la manière dont il peut varier d’un fichier à l’autre? Où se trouve le fichier? De plus, est-il possible de modifier ou d’améliorer le code HTML si nécessaire?

Oh, et exécutez-vous quelque chose sur le (s) serveur (s), ou avez-vous besoin de code pour spider le serveur afin de récupérer les fichiers HTML à traiter?