Vyzera, ze samotny engine ABBYY je aj na linux. Kazdopadne cuneiform vyzera byt dost kvalitny OCR engine. Nepodarilo sa mi najst nejake rozumne porovnanie tychto dvoch (a pripadne inych) OCR enginov, asi treba pripadne skusit.
Ja by som to pomerne casto pouzil pri prevode PDF do nejakeho ebook formatu, nevedel som, ze OCR-ka zvladaju uz tak kvalitne detekovat odstavce, odrazky a podobne. Na samotnej detekcii textu v pripade PDF asi nezalezi.
Ja som tiež našiel nejaké odkazy na ABBYY pod linuxom, ale keď som napísal priamo predajcovi, tak som dostal odpoveď, že ABBYY pod linuxom nepredávajú. Skúšal som rôzne OCR pod linuxom, ale žiadny sa nevyrovná ABBYY Fine Readerovi. Ani kvalitou výstupu, ani ovládaním. Sú viac-menej použiteľné len na menšie texty, kde nie je problém následne si chyby opravovať.
ABBYY pre linux existuje už pár rokov... hneď sme po ňom skočili, ABBYY (a scaner s win-only ovládačom) bol jediný dôvod, prečo sme v práci mali posledné 2ks počítačov s windows.
Licencia je o dosť odlišná od ABBYY for Windows (na počet strán na rok, pri registrácii sa kontroluje hardware a dovolí len jednu inštaláciu - to sme ale vyriešili inštaláciou do kvm :-)), a teda cena je niekde inde.
Funguje skvele, ale je ukážkový príklad, ako NEpísať CLI programy - veľmi veľa parametrov pri spúšťaní, na ich poradí záleží, GNU konvenciu to nedodržiava, do pipe sa dať nedá...
Teď jsem to zkoušel, v pátek mi to přišlo od Conradu, ale budu to vracet. Funguje dobře, ale u většiny knih mám problém se dostat na písmenka blízko hřbetu a problém často dělal i horní nebo dolní okraj stránky. Ne všechny knihy jsou vysázeny ideálně. Ten skener počítá s levým/pravým okrajem 1,2 a 2,5 cm. Další problém je, že válečky jsou od snímače vzdáleny 1,4 cm a když se přestanou otáčet, snímání je ukončeno - následkem je opět necelý horní/dolní okraj, podle směru snímání. A ještě jeden problém, možná mám walshový ruce, ale nedaří se mi udržet stránku tak aby byla v klidu a neuhýbala pod taženým skenerem, zvláště, když to musí být všelijak vypodložené aby stránky ležely rovně.
Vypadá to, že jako majitel digitálního fotoaparátu, si vyrobím nějaký držák knih tak, aby knihu držel otevřenou v úhlu 90° v ose objektivu...
nezapomeň na speciální závit co mají foťáky, bacha, ať tam nenarveš M5 nebo M6 co tam naoko 'skoro' pasuje. Pak stačí primitivni rameno ze dřeva co do bude držet nad knížkou. Dobrý je knížku polootevřít, tak na 120stupňů a fotit tak kolmo na pěkně otevřenou málo ohnutou stránku. a moc s tím nehýbat a vzít nejdřív sudý a pak lichý stránky. klidně otočený - zapíram knihu o kraj ramene pod foťákem ať je pořád ve stejné poloze. Potom to na komplu zkombinovat MASS RENAME nástrojama, případně dootočit na commandlině 'mogrify *.JPG -rotate 270' a bohužel potom zpracovat a to zatím pouze ABBYY ve virtualboxu
Ten závit je palcový, UNC, konkrétně 1/4-20 nebo u velkých foťáků či kamer 3/8-16. První číslo je průměr (tj. 6,35 mm nebo 9,53 mm), druhé stoupání (závitů na palec čili 1,27 mm nebo 1,59 mm). Dříve se používal klasický Whitworth, s UNC je ale kompatibilní (u foťáků, ne v přesném strojírenství) ;-).
Používám VuPoint Solutions Magic Wand Portable Scanner. Většina knížek má úzké okraje, takže je potřeba skenovat od hřbetu ke kraji, někdy jsem pak pod skenovanou stránku vkládal tvrdší papír, po kterém skener dojede ven ze stránky (když je vnější okraj příliš úzký).
V případě úzkých okrajů je to skenování asi stejně pomalé, jako na skenování z plochy, ale podle mne takhle jdou bez zničení vazby naskenovat i knížky, které jsou sázené hodně ke hřbetu, a na ploše skeneru by je nešlo pořádně rozevřít. Když jsou okraje širší a není nutné být tak pečlivý, jde to podle mne rychleji. Každopádně se vyplatí být pečlivý při skenování a jít „na jistotu“ že chytnu i ta krajní písmenka, než pak v OCR mazat zbytky prvního písmene a doplňovat je. Zatím jsem takhle naskenoval myslím tři knížky, problém s okraji byl u jedné, kdy jsem si u pá stránek ve středu knížky nedal pozor a krajní písmenka byla naskenovaná v oblouku. Ale sousední stránky byly vpořádku, takže to byl opravdu jen problém malé pečlivosti při skenování.
Perfektní je to ale třeba na naskenování článků z časopisu v prezenční knihovně – skener je na tužkové baterky a ukládá na paměťovou kartu, takže „venku“ stačí ten skener, a pak si to doma v klidu přetáhnu do počítače.
Zkoušel jsem před časem místo skeneru použít digitání fotoaparát (žádné megapráskové dělo, jen slušný kompakt), fotil jsem normálně z ruky za denního světla. Výsledek převodu v ABBYY Fine Readeru byl překvapivě dobrý, plně srovnatelný s OCR ze skenované předlohy. A samozřejmě je fotografování několikrát rychlejší a nesrovnatelně šetrnější ke knize než skener, protože jí nelámu hřebet a vlastně s ní po celou dobu skoro nepohnu, jen obracím stránky. Navíc u knih, které nejdou u hřbetu dobře rozevřít, je výsledek o kus lepší než u skenu - skener text blízko hřbetu obvykle zdeformuje tak, že si s tím OCR často neporadí, u fotek tenhle problém skoro nenastal.
na ocr pouzivam jedine poradny fotak, nasazim kolem stolni lampicky kvuli poradnemu svetlu a pak uz jedem - manzelka foti, ja otacim, 200strankova knizka kvalitne nafocena behem cca pul hodinky. Proste jen listujete a partner cvaka. Jsou tam sice videt spicky prstyu, ale to se da vymazat :-)
Návod je to pěkný, jen si nejsem jistý zda bych to někdy smyslplně upotřebil. Přijde mi, že v naprosté většině případů je pro mě jednodušší si tu 100 stránkovou knihu za dvě hodiny přečíst v "analogové formě", než ji tři hodiny skenovat a pak ještě číst. Asi to má smysl jen u knih kde vím že je budu číst víckrát, případně že je bude kromě mě číst ještě někdo další (ale pozor na legálnost takového počínání ;-) ).
Samozřejmě že existuje, dokonce se dá postavit po domácku.
V nejake tv reportazi jsem videl takovy stroj. Kniha se do nej pokladala hrbetem dolu a resil dokonce i jeji naklaneni, aby skener co nejlepe "zajel" do hrbetu. Na knize byla videt linka od zeleneho laseru, jak po ni prejizdi (svisla cara prejizdejici z levejo konce liche stranky k pravemu konci sude). Jen nevim, jestli to melo vyresene i otaceni.
Jinak souhlas, ze u vetsi knizky bude jednodussi fotak na stativu.
"Jméno souboru na 0001.jpeg a dpi na 200."
Síce robím na Windows, ale pre ABBYY FineReader (prevod na verzii 8.0 Corporate edition v robote pre pracovné účely, prevádzal som max. 20 strán naraz) sa mi osvedčilo nastavenie 300 dpi a komprimovaný tiff, gif alebo png, 2 farby (BW) alebo 16 odtieňov šedej. Vždy išlo len o texty, nie o obrázky. A na texty je jpeg vyslovene nevhodný a zbytočný - je to formát na fotky (a preto v texte rozostrí hrany a v tomot prípade produkuje väčšie súbory než správne nastavený tiff, gif, png).
Často najdu v antikvariátu nějakou 'pecku' za 'kačku'. Tam to řeším tak, že:
1. odpreparuji pevné desky
2. odříznu hřbet řezačkou, v nouzi skalpelem podle pravítka. Při řezání dvakrát měřte, protože jsem si u jedné knížky takto ufiknul na některých listech první písmenka a ty korektury (v textu byly slangové holandsko-finské námořnické hlášky) pak stály skutečně za to ;-)
3. proženu volné listy skenerem s podavačem. Napřed liché a pak sudé. Rozlišení 600 DPI, místa na to je dost, ve finále se to stejně smaže.
4. zkontroluji, zda sedí číslování stránek a skenů, usnadňuje to následné korektury, případné nedostatky IHNED řeším.
Zbytek dle vašich preferencí, já používám FineReader, archivuji v DOC/DOCX. Zpravidla si s knihou dost pohraji, těch hodin na ní strávím více. Do Kindla posílám emailem (subject:Convert) přes Amazon.
x-1. po nějakém čase, zpravidla po přečtení ebooku a případných opravách, odložím zbytek knihy do sběru.
x. A jelikož chci také přispět ke společnému dílu, z kterého také často čerpám, tak pošlu knížku do nějaké 'veřejné' knihovny.
Jak fungují dnešní OCR systémy při rozpoznávání naskenovaných dokumentů, ve kterých je více jazyků? Kdysi dávno (ale přiznávám, už hodně dávno) jsem to vyzkoušel a nějak to moc nefungovalo. Od té doby věci, které skenuji, OCRkem neproháním právě proto, že většina knih/článků, které si potřebuji naskenovat, obsahuje více jazyků (často mám v rámci jednoho dokumentu části nebo třeba i jen slova anglicky, německy, francouzsky, latinsky a starořecky) a následná úprava nerozpoznaných a špatně převedených slov by byla tak zdlouhavá a pracná, že to prostě nemá cenu.
Je v této oblasti nějaký pokrok? Má smysl to zase vyzkoušet, nebo je to zbytečná námaha?
Předem díky
Mohl by někdo popsat, jak je možné ten YAGF zkompilovat.
http://symmetrica.net/cuneiform-linux/yagf-en.html
nějak to nemůžu najít v doku, ani v rozbaleným archivu, náhodné zběsilé [configure/make/make install ani qmake QT-4 kejkle] nevede ke kýžené kompilaci
aha, takže to potřebuje ###qt4-dev-tools###
apt-get install qt4-dev-tools
cmake .
yagf-0.8.7/src/qxtgraphicsproxywidget.cpp: In member function ‘virtual QVariant QXtGraphicsProxyWidget::itemChange(QGraphicsItem::GraphicsItemChange, const QVariant&)’:
yagf-0.8.7/src/qxtgraphicsproxywidget.cpp:48: error: ‘ItemScaleChange’ is not a member of ‘QGraphicsItem’
yagf-0.8.7/src/qxtgraphicsproxywidget.cpp:51: error: ‘ItemRotationChange’ is not a member of ‘QGraphicsItem’
make[2]: *** [CMakeFiles/yagf.dir/src/qxtgraphicsproxywidget.cpp.o] Error 1
make[1]: *** [CMakeFiles/yagf.dir/all] Error 2
make: *** [all] Error 2
aja jaj....
yagf-0.8.7-qt-4.6.x
tak jo, už to jede, chce to stáhnout a rozbalit a zkusit zkompilovat tu verzi ###yagf-0.8.7-qt-4.6.x### možná následující řádky někomu ušetří čas:::
wget http://symmetrica.net/cuneiform-linux/yagf-0.8.7-qt.4.6.x.tar.gz
tar -xzvf yagf-0.8.7-qt.4.6.x.tar.gz
cd yagf-0.8.7-qt-4.6.x
sudo apt-get install libaspell-dev qt4-dev-tools
cmake .
make
sudo make clean
A ted si predstav treba ty blazny, kteri se cely rok staraji o zahradku, aby z toho pak meli par kilo mrkve a cesneku. Vzdyt si muzou zajit do obchodu a vse si pohodlne koupit.
Ti tezko presvedci MS-certified chief account managera, MBA o tom, ze je to bavi. On totiz vi, ze nejlepsi je intenzivni odpocinek u golfu a na squashi. Ten vi jak spravne zit.
Tvrzeni, ze staci nechat nascanovanou knizku projet automatickou korekci a staci to, je imho nesmysl. Podle mých zkuseností teprve po cca 3. manualni korekture (pote,co co na to pustite automat), od nekolika lidi, zacina byt trochu k svetu. Jinak na scanovani bych rekl, za nejlepsi by byl nejaky knizni scanner od Plusteku (pokud mluvime o levnem a rychlem reseni).