Vynaliezavosti sa medze nekladu.
1. Viditelny obrazok s menom vlastnika. Niektori to piratia aj s nim.
2. Nieco ako homograph attack. V Unicode je niekolko roznych medzier, su tam rozne pismena "a", mame niekolko druhov pomlciek-spojovnikov, odstavce sa daju znacit roznymi sposobmi atd. Staci v texte skryt 20 takychto a dokazeme identifikovat 1 cloveka z miliona.
3. Preklepy a vymozenosti ako pocet bodiek v obsahu medzi nazvom a cislom strany, ne/pouzitie ligatur.
4. Zbytocne spojky, slova naviac, alternativy vo vyplni alebo poradie prvkov tam, kde sa nieco len vymenovava.
5. PDF ma zdrojovy kod, do neho sa da schovat hocico.
Hm, tady zase někdo znovu objevil psací stroj. Tam byly mezi exempláři glyfy taky různé a použilo se to k identifikaci kde byl dokument napsán. Doporučuji ještě přidat posun znaků nahoru a dolů, aby to bylo dokonalé. Jinak klasická steganografie, ale už vidím nárůst velikosti dokumentu kvůli obrovskému slovníku fontů.
Pro porovnání:
Columbia University in the city of New York
https://www.columbia.edu/
National University of Colombia - Universidad Nacional de Colombia
http://unal.edu.co/
(oni snad ani nemají funkční https)
Hmm mi se moc nelíbí to "glyfy jsou vlastně rovnice" (i když je to překlad). Glyf je _index_. Fonty mají instrukce OpenType jako např. GSUB a GPOS, ale tím se ten paper nezabývá, jim stačí udělat alternativní glyfy a při mapování znaků na glyfy podle zprávy vybrat ten "správný". Navíc tato technika bude fungovat jen u dokumentů typu PDF, protože ten kdo vytváří daný dokument musí mít to mapování pod kontrolou.
Ve fontech je tolik věcí, co by se dali použít na steganografii i bez nutnosti upravovat vizuální reprezentaci jednotlivých znaků. Např. různé offsety, flagy, instrukce, atd... Je tam toho fakt hodně a záleží jen na představivosti :)
Já jsem si ten reseach paper přečetl a vypadá to, že to byl i záměr, ale přijde mi to trochu absurdní. Ty rozdíly glyfů jsou totiž patrné pouhým okem a to mi nepřijde jako ideální způsob vynášení informací. Takže pokud bych já chtěl vynést informace, tak bych to právě udělal tak, aby to okem poznat nešlo a aby rasterizace takového dokumentu byla totožná s originálem. A toho bych právě docílil tak, že bych upravil tabulky v tom fontu.
Na druhou stranu bych tuto techniku chápal jako formu značkování dokumentů a jednoduchý způsob, jak identifikovat jejich původ (např. kdyby každý uživatel ve firmě měl nainstalovanou rozdílnou sadu fontů). Otázka je, jak moc by to bylo komplikované a jestli by se něco takového vůbec vyplatilo. Takže celkově podle mě toto žádná velká věda není.
Tech zpusobu je urcite vice. Treba nahodne zlute tecky, okem prakticky neviditelne.
https://en.wikipedia.org/wiki/Printer_steganography
Nebo ted jsou popularni knizky pro deti, knizky s mluvim perem. U nas treba popularni edice "Kouzelne cteni" nebo zahranicni LeapReader. Tam jsou na strance temer neviditelne tecky (snad UV ingoust), takova matice, ktera vytvari "takove GPS", pero dokaze s mm presnosti urcit polohu nejen v ramci stranky, ale take o kterou knihu se jedna a stranku. Zajimava technologie. Tech systemu je vic, asi nejznamejsi je "anoto" (Kouzelne cteni ale pouziva trosku jiny system). Obecne se tomu rika "digitalni papir". Tento system by jiste take sel pouzit ke kodovani zprav.
Jde o odchylky v definici glyfu a to samozřejmě není index. Samozřejmě dělají alternativní glyfy. Samozřejmě to bude fungovat ve všech formátech, do kterých lze přiložit font. A opět samozřejmě to musí být ve visuální reprezentaci, když chtějí zprávu získávat z vyrenderovaného dokumentu. Hlavně, že máš jasno...
Vždyť font není nic jiného než sada tabulek, které definují transformace, pozicování, a vizuální reprezentaci glyfů. Abych ten alternativní glyf zobrazil, tak na něj ale musím odkázat a bude mít jiný index (GID) než ten základní, který získám přes cmap.
V PDF je to jednoduché, protože už obsahuje transformovaný text na tzv. glyph-run, v jiných dokumentech, kde zdroj je čistý text, už to ale neplatí. V HTML bych si to dovedl představit např. pomocí "OpenType Character Variants" kde payload by se předal přes 'cvXX' pro každý znak zvlášť.
Hlavně, že máš jasno... - na tom co jsem nepsal nebylo nic špatně, tak si nechte ty vaše poznámky o jasnu. Občas si tu spletu retarda s trolem, tak pokud jsem vás zařadil do špatné kategorie, tak se omlouvám...
A ted si to predstav v implementaci od statni spravy, ktera sveho casu zvladla udelat registr aut a ridicu, ktery naprosto nestihal a mnohanasobne zpomalil vsechny operace na dopravnich inspektoratech (nebo jak se to dneska jmenuje).
Pritom slo o vec, ktera z principu potrebuje prenest par stovek bytu na osobu, takzre by klidne mohla - byla-li by dobre napsana - bezet na nejakem 100MHz pentiu s 64 kbit/s linkou.
Tady se bavime o generovani fontu pro kazdou uctenku. Uz vidim ty lidi ve spacakach, jak jsou pred potravinama od tri od rana ve fronte jak na iPhone/maso (podle ery), aby stihli nakup predtim, nez obchod zavre, protoze vygenerovani uctenky trva dvacet minut az hodinu.
TeX by něco takového zvládl v reálném čase.
MMCH existuje prográmek pdf2ps, který udělá z pdf-ka čitelný postscript. Ten by alespoň umožnil detekovat, že v souboru něco takového je (pokud bychom to měli jako soubor). Tištěný text by se zase dal prohnat OCR, které by tyhle rozdíly mezi fonty s vysokou pravděpodobností zcela zrušilo.