
OOo_html_simplifier.pl to skrypt perlowy usuwający nadmiarowe tagi w źródle html wygenerowanym przez OpenOffice.org. Program można uruchamiać na dowolnej platformie wspieranej przez (i po zainstalowaniu) perla - Linux/Unix/MSWindows i inne.
OpenOffice.org generuje stosunkowo ładny kod html, ale można go jeszcze w dużym stopniu uprościć. Celem skryptu jest pozostawienie tylko najważniejszych tagów:
p br a_href img_src h1 itp.
Skrypt jest krótki i przejrzysty więc można go łatwo rozbudować tak żeby usuwał kolejne nadmiarowe tagi.
OOo_html_simplifier.pl idealnie nadaje się do łączenia z zewnętrznymi stylami CSS przez to, że kod html nie zawiera żadnych formatowań - program powstał z myślą o takim właśnie zastosowaniu. Program posiada również prosty, wbudowany styl CSS (opcja -s).
Z doświadczenia wiem, że pliki doc/sxw generowane przez ludzi o pobieżnej znajomości edytora zawierają nadmiar przypadkowych stylów i przeróżnych formatowań (ten kawałek stylem "domyślnie", ten kawałek stylem "treść tekstu", tutaj czcionka 12 a tu 13, tutaj wyrównanie do lewej, tutaj wyjustowanie itd) mających niekorzystny wpływ na generowany później kod html.
Wymagania: perl, perl-modules (locale.pm)
Najnowsza wersja:
OOo_html_simplifier.pl
z repozytorium SVN
W OpenOffice.org utwórz dokument i zapisz go jako html, np. foo.html. Później uruchom:
perl OOo_html_simplifier.pl foo.html
Możesz też dodać wbudowany styl CSS do wyniku:
perl OOo_html_simplifier.pl -sH foo.html
1. W jaki sposób wstawić puste wiersze?
Skrypt usuwa puste linie. Aby wymusić pusty nowy wiersz w OpenOffice.org użyj ctrl+spacja (twarda spacja) co powoduje wyeksportowanie kodu
- ten kod nie będzie usunięty.
2. Jak wstawić / usunąć link (a_href) w OpenOffice.org?
Zaznacz jakiś tekst, np. link do www.inf.sgsp.edu.pl i w oknie hiperłącza (rysunek poniżej) podaj Cel: http://www.inf.sgsp.edu.pl. Jeżeli chcesz usunąć wprowadzony link, to zaznacz go i wybierz Format -> Domyślnie.

3. W jaki sposób wygenerować spis treści tak jak na górze tej strony?
W OpenOffice.org elementy, które mają trafić do spisu treści muszą być wygenerowane stylem "Nagłówek 1". Wykonaj Wstaw -> Indeksy i spisy -> Indeksy i spisy i wstaw hiperłącza jak na rysunku poniżej

Wynik użycia skryptu:
Przypadkowy plik OpenOffice.org (konwertowany z MSOffice i poddany zakodowaniu informacji) foo.sxw zapisano jako html foo_before.html
i poddano działaniu skryptu uzyskując foo_after.html. Możesz
porównać obydwa pliki przeglądając ich źródła w przeglądarce (ctrl+u w firefoksie).