@strepty: Tak pdftotext umím pustit taky. Akorát to má tu vadu, že pak v tom textu je např. další doména "mfcr.cz" :-) (v emailové adrese), takže kdybych z toho chtěl vytahovat domény, tak první bude zablokovaný i ten web s tímhle seznamem :D.
A myslím si, že každý ajták tohle za normálně strojově zpracovatelné nepovažuje, nemá to strukturu. Přijde jiný ouřada a hnedle další PDFko bude vypadat úplně jinak, včetně toho, co se pak převede na text.