HTML z Wordu neni zvlasni ... je strasne. Ani naprosty silenec pod vlivem uplnku a tvrdych drog by neco takoveho nenapsal - obzvlaste perly typu nekolik do sebe vnorecnych tagu <font> (tfujtajxl!), kazdy nastavujici jinou vlasnost (postupne pismo, velikost, barva atd.) a uvnitr nich je jediny tag <p> a v nem ... nic (takto vypada ve Wordu prazdna radka :-) ).
Jedinou moznosti, jak pouzit takovyto vystup, je vycistit ho - but pomoci Tidy (pokud si nechcete spinit ruce), nebo rucne - osobne pouzivam celou kohortu regularnich vyrazu, ktera zachova strukturalni prvky, ale vyhaze vsechno ostatni.
A nejhorsi je to, ze vnitrek OOXML vypada uplne stejne silene jako to HTML. Uprimnou soustrast tem, kdo ho budou muset implementovat ...