To JardaP, VfB, xpozitron: chápu vaše zklamání. Epub, mobi, OCR v mém článku skutečně nenajdete, nutno říci, že zcela záměrně. Vysvětlím: osobně zastávám názor, že OCR se hodí pro beletrickou nebo jinou oddechovou literaturu. Tedy pro texty, kde člověk rozpozná chybu OCR vlastním úsudkem. Ale zkuste se učit třeba matematiku z textu, o kterém nevíte, zda nemohou být ve vzorcích zaměněny písmena... :-)
Jelikož si skenuji téměř výhradně nebeletrické knihy, upřednostňuji originální text, byť ve formě obrázků, než něco, co "odhadl" OCR software. Např. poslední dobou jsem se zabýval literaturou o stavbách rodinných domů, obsahující mnoho obrázků, grafů, výpočtů tepelných ztrát, názvů materiálů a technologií. Pochybuji, že tam by OCR bylo použitelné.
Krom toho, nesetkal jsem se s čtečkou, tabletem nebo mobilem, který by nezvládal obstojně PDF. Samozřejmě u "obrázkových" PDF rozhoduje velikost obrazovky, ale jak říkám, na mobilu se vyplatí číst si tak max. beletrii, nikoli technickou literaturu.
Zvláštní, zřejmě je málo známá skutečnost, že v PDF, jakonžto i v jiných formátech jde kombinovat text s obrázky. Zřejmě je třeba provést větší osvětu na tomto poli.
Navíc moje OCR převádí text do textu a vzorce nechvá jako obrázky.
Ale jak říkám, to už je vyšší level – zřejmě se to učí až na doktoranském studiu, že je možné text a obrázky vzájemně v jednom dokumentu kombninovat. Zřejmě příliš těžké na pochopení.
Sosnul jsem z netu balik temer 17 tisic knizek v polstine, jsou tam jak stare, tak nove, format TXT cp1250. Podle chyb v textu to vypada na OCR, ale setsakra kvalitni. Opravdu by me zajimalo, jak neco takoveho vzniklo. 17 000! Jak se neco takoveho dela? Nezda se mi, ze by nekdo sedel a scanoval treba Sailor on Horseback od JACK LONDON a pak to ORCkoval a kontroloval.
Viz http://www.pgdp.net - distributed proofreaders. Vyborna zabava na dlouhe jarni vecery :)
Takže jsme se dověděli, že ScanTailor je takový krám, že je třeba mu všechna data předchroupat ImageMagickem. Jaká může být jeho kvalita, když ImageMagick (který existuje taky jako knihovna) nedokázali tvůrci programu zaintegrovat přímo do ScanTailoru? Aspoň vím, že druhý díl číst nemusím.
ScanTailor jsem použil na W7 v práci i doma na Ubuntu. Určitě neumím využít všechny vlastnosti, takže se těším na 2. díl, ale i tak mi dost usnadnil práci - ořezaní, rotaci, alespoň nějaké vyčištění je možné udělat rutinně, bez toho, že bych musel opravovat v graf. editoru každou stránku zvlášť.
je evidentne veľmi zaujímavá téma. Zďaleka nie všetka literatúra sa dá v súčasnosti kúpiť v digitálnej forme. Mnohí čitatelia majú doma stohy kníh, ktoré by chceli digitalizovať.
Pre mňa najzaujímavejší portál venujúci sa tejto problematike je http://www.diybookscanner.org.
V jednotlivých sekciách fóra sa človek dočíta zaujímavé informácie o problematike deštruktívneho i nedeštruktívneho scanovania, fotenia, príprave pre OCR, OCR, calibre......
Je tam niekoľko pekných hackerských konštrukcií zariadení na fotenie i linky na profi riešenia.
Okrem ScanTailora sa tam v poslednom čase stále viac hovorí o javovskej aplikácii BookScanWizard. Skúsil som s ňou spracovať jednu 100+ stranovú knižku a aj mne sa zdá práca s ňou príjemnejšia a priamočiarejšia.
Kvalitný opensource OCR s podporou SK (kontrola naskenovaného textu spellerom či nebodaj grammarom) som zatiaľ nenašiel. <irónia>Verím, že to bude hneď ďaľšia aplikácia, do ktorej sa pustí slovenský univerzálny softwarový gigant Slovanet po dokončení slovenského anti-spam riešenia</irónia>
Používam ABBYY Fine reader, ale nie som s ním spokojný. Stará maďarská Recognita dosahovala pred 8 rokmi lepšie výsledky. Ani neviem kde na smetisku dejín (alebo v kremíkovom nebi) skončila. Teda viem, nahradil ju software Omnipage vraj s vylepšenými technológiami, ale výsledky SK textu sú s týmto software podstatne horšie. Po kratšom učení (20 min, pol hodinka) sa pri Recognita výsledky násobne zlepšili. Pri Omnipage ten pocit nemám....