Názor k článku
Seznamy blokovaných webů se rozrůstají od Filip Jirsák - Za „strojově čitelný text v PDF“ se považuje...

  • Článek je starý, nové názory již nelze přidávat.
  • 9. 4. 2024 14:24

    Filip Jirsák
    Stříbrný podporovatel

    Za „strojově čitelný text v PDF“ se považuje to, že text, který je zobrazený uživateli, je zároveň strojově zpracovatelný. Tj. není vložen jen jako obrázek, ale je buď renderován přímo z textových dat, nebo je sice renderován jako obrázek, ale pod ním je skrytá vrstva obsahující zase ta textová data. Přičemž v obou případech je potřeba ještě to, aby byl text správně kódován. Nicméně v obou případech je pořád text pozicován na správné místo pomocí souřadnic, tj. nestačí vzít text tak, jak jde za sebou v dokumentu.

    XML se používá především pro metadata. Minimálně z důvodu dopředné kompatibility by PDF prohlížeče neměly moc protestovat, pokud do těch dat nacpete něco navíc. Ale rozhodně bych to nepovažoval za dobrý způsob, jak dostat do PDF strukturovaná data.

    PDF/A nesplňuje ani ten soubor s vloženou přílohou. Což je ale jedno, protože tyhle soubory nejsou určené pro dlouhodobou archivaci. Navíc na PDF/A se v ČR moc nehraje, to řeší pár lidí, kteří vědí, o co jde.

    I v tehle debate se doslo k reseni, ktere by bylo pouzitelne: podepsane PDF s XML jako priloha.
    Ono se k tomu nedošlo, ale napsal jsem to hned v prvním komentáři, kde jsem tvrdil, že to není zas až tak jednoduché. Akorát jsem tam hned nepsal o XML, protože jednak když vložíte do PDF soubor, může být jakéhokoli typu, takže z hlediska podepisování je to jedno; jedno jak jsem nechtěl místí všeználky dráždit ještě připomenutím, že CSV není vhodný formát pro strukturovaná data, a že vhodným formátem je třeba XML.

    Očividně to problém je, když několik lidí, kteří si myslí, že problematice rozumí, navrhnou špatná řešení po té, co si lepší řešení už přečetli. Není to žádná raketová věda, ale na druhou stranu evidentně není samozřejmé vymyslet to na první dobrou hned správně.