Názor k článku
Seznamy blokovaných webů se rozrůstají od Filip Jirsák - Za „strojově čitelný text v PDF“ se považuje...

Článek je starý, nové názory již nelze přidávat.

9. 4. 2024 14:24

Filip Jirsák

Stříbrný podporovatel

Za „strojově čitelný text v PDF“ se považuje to, že text, který je zobrazený uživateli, je zároveň strojově zpracovatelný. Tj. není vložen jen jako obrázek, ale je buď renderován přímo z textových dat, nebo je sice renderován jako obrázek, ale pod ním je skrytá vrstva obsahující zase ta textová data. Přičemž v obou případech je potřeba ještě to, aby byl text správně kódován. Nicméně v obou případech je pořád text pozicován na správné místo pomocí souřadnic, tj. nestačí vzít text tak, jak jde za sebou v dokumentu.

XML se používá především pro metadata. Minimálně z důvodu dopředné kompatibility by PDF prohlížeče neměly moc protestovat, pokud do těch dat nacpete něco navíc. Ale rozhodně bych to nepovažoval za dobrý způsob, jak dostat do PDF strukturovaná data.

PDF/A nesplňuje ani ten soubor s vloženou přílohou. Což je ale jedno, protože tyhle soubory nejsou určené pro dlouhodobou archivaci. Navíc na PDF/A se v ČR moc nehraje, to řeší pár lidí, kteří vědí, o co jde.

I v tehle debate se doslo k reseni, ktere by bylo pouzitelne: podepsane PDF s XML jako priloha.
Ono se k tomu nedošlo, ale napsal jsem to hned v prvním komentáři, kde jsem tvrdil, že to není zas až tak jednoduché. Akorát jsem tam hned nepsal o XML, protože jednak když vložíte do PDF soubor, může být jakéhokoli typu, takže z hlediska podepisování je to jedno; jedno jak jsem nechtěl místí všeználky dráždit ještě připomenutím, že CSV není vhodný formát pro strukturovaná data, a že vhodným formátem je třeba XML.

Očividně to problém je, když několik lidí, kteří si myslí, že problematice rozumí, navrhnou špatná řešení po té, co si lepší řešení už přečetli. Není to žádná raketová věda, ale na druhou stranu evidentně není samozřejmé vymyslet to na první dobrou hned správně.
- Zobrazit celé vlákno

Zprávičky

V Japonsku doporučují dát uživatelská jména a hesla do závěti

Nové PHP 8.4.1: háčky vlastností, nesymetrická viditelnost a líné objekty

Loki: log management v Grafaně (školeni)

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

Názor k článku Seznamy blokovaných webů se rozrůstají od Filip Jirsák - Za „strojově čitelný text v PDF“ se považuje...

Zprávičky

V Japonsku doporučují dát uživatelská jména a hesla do závěti

Nové PHP 8.4.1: háčky vlastností, nesymetrická viditelnost a líné objekty

Loki: log management v Grafaně (školeni)

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

Dále u nás najdete

Poruchy erekce potkají polovinu mužů po padesátce

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

V obchodech je máslo s obsahem tuku jen 61 %. Rarita, ale povolená

Lumbální punkce sice vypadá děsivě, ale nebolí

Opakující se melodii v hlavě zkuste zahnat žvýkačkou

Akutní srdeční selhání může být horší než infarkt

Youtubeři a influenceři se musí registrovat

SSD už také mají obrovskou kapacitu – až 122 TB

Vláda chce odložit účinnost "digitální ústavy" o dva roky

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Vánoční slevy operátorů? Daleko za očekáváním

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Čeští středoškoláci očekávají vypuštění své družice

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

Co dělat, když vám zavřou dodavatele IT služeb?

Osvědčené způsoby, jak snížit vysoký krevní tlak

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Názor k článku
Seznamy blokovaných webů se rozrůstají od Filip Jirsák - Za „strojově čitelný text v PDF“ se považuje...