Skenování knih a převod do eknih je hračka

6. 9. 2011

Doba čtení: 5 minut

Líbí se vám článek?
Podpořte redakci

Už jsme si řekli, jak eknihy vytvářet, jak a kde je číst. Kde je ale brát? Často se stává, že vám někdo dá knihu jako dar a netuší, že už nějakou dobu máte elektronickou čtečku, pomocí které knihy čtete. Proto se dnes podíváme na to, jak takovou knihu zdigitalizovat, jak je to pracné a kolik vám to tak zabere času.

I když se dnes již dá sehnat v elektronické podobě poměrně velké množství knih, tak většinou tu, kterou vlastníte a nebo si chce koupit, zrovna nelze nalézt. Koupíte si ji tedy v tištěné podobě a začnete uvažovat: „Jak tedy co nejjednodušeji převést svou knihu do počítače, respektive do formátu podporovaného vaší čtečkou?“

Co k tomu tedy budeme potřebovat. Z hardwarového vybavení určitě skener. I když se celý proces dá rozchodit na kterémkoliv zařízení (zkusil jsem i na historickém zařízení Mustek 1200 CP přes paralelní port), tak vřele doporučuji nějaký novější typ a jestliže máte přístup k A3 skeneru, tak máte minimálně z poloviny ušetřený čas první etapy. Pro účely tohoto článku jsem použil multifunkční zařízení Samsung SCX-3205 a sken jedné strany i s otočením mi trval necelých 20 sekund. 100 stránková kniha tak vyjde přibližně na půl hodiny.

Speciál léto s (e)knihou

Přemýšlíte o elektronických knihách, ale víte o nich málo? Uvažujete nad čtečkou, ale máte pocit, že je ještě příliš brzy? Pak čtěte náš speciál léto s (e)knihou, kde se o elektronických knížkách dozvíte vše podstatné.

Dále budeme samozřejmě potřebovat knihu, kterou budeme chtít skenovat. Doporučuji se dopředu rozhodnout, zda budete chtít převádět i obrázky kvůli nastavení parametrů vstupu. Pro samotný text plně vyhovuje nastavení odstínů šedi, s obrázky nastavíme plnou barevnou škálu.

Dále budeme potřebovat softwarové vybavení. Pro obsluhu skeneru využívám knihovnu Sane (respektive její frontend XSane), jako OCR (Optical Character Recognition- optické rozpoznávání znaků) využívám cuneiform (respektive jeho frontend YAGF). Pro finální opravy a stylizaci textu lze využít libovolný textový editor (já využívám LibreOffice Writer).

Získáváme vstupní data – skenujeme knihu

Jestliže nemáte přístup k A3 skeneru a nemůžete tedy skenovat celou dvojstranu naráz, tak je důležité si v Xsane před začátkem nastavit správné krokování jmen souborů na +2. Jméno souboru na 0001.jpeg a dpi na 200. Pro OCR je tato hodnota dostatečná a velikost souboru je ještě poměrně rozumná.

Nyní si nastavíte knihu do jedné polohy a pomocí náhledu nastavíte skenovanou oblast na kompletní stránku. Pak již jen mačkáte tlačítko Skenovat a otáčíte stránky. Po skončení lichých stránek, knihu otočíte o 180°, resetujete počítadlo na číslo 0002 a pokračujete v najetém úkonu až do konce knihy. Jestliže jste vše udělali správně, máte nyní adresář plný souborů obsahující jednotlivé stránky.

Vždy dbejte na to, aby stránka byla naskenována rovně. Nemusíte pak již obrázky upravovat a OCR je přesnější.

Převádíme obrázky na text

Nyní přistoupíme k dalšímu kroku. Obrazová data, která jsme získali skenováním knihy potřebujeme převést do textu. Sice už nyní by se kniha dala číst, ale dovolím si tvrdit že pohodlně pouze na desktopu a nebo na zařízeních s větším displejem (třeba na tabletu). Jednou z dalších nevýhod takovéhoto čtení je i celková velikost takové knihy, která při sto stranách přesahuje 50 MB.

Pro převod do textu využívám cuneiform a jeho grafický frontend YAGF. Jedná se o velice jednoduché prostředí, které umožňuje otevření všech souborů naráz (proto bylo důležité, aby soubory se skenem jednotlivých stránek měly po sobě jdoucí číslování) a spuštění hromadného převodu do textu formátovaného HTML. Lze zvolit i formátování TEXT, ale pak přijdete o odsazení odstavců a jestliže chcete mít výsledný text včetně odstavců, tak byste si zbytečně přidělávali práci.

Převod není zrovna nejrychlejší a jestliže se budeme držet našeho výše uvedeného příkladu knihy o rozsahu 100 stran, tak počítejte, že tento převod bude trvat déle než hodinu. Tento úkon se však plně obejde bez vaší asistence, takže je otázka, zda tento čas započítávat do celkového času převodu knihy, protože jej lze efektivně zúročit jinou prací.

Finalizujeme textovou úpravu

Nyní máme tedy knihu v surové podobě a, mohu mluvit ze zkušenosti, poměrně slušně povedené. Viděl jsem a četl knihu, která byla v této fázi převedena do formátu elektronické knihy bez dalších úprav a dala se číst a dočíst. Já však mám rád dobře odvedenou práci, a proto nyní nastupuje LibreOffice Writer a jeho „Kontrola překlepů a gramatiky (F7)“.

Jestliže zjistíte, že se některá chyba pravidelně opakuje, tak doporučuji nastavit automatické nahrazování. Kontrola námi zvolené knihy zabere přibližně 45 minut (podle rozsahu a podle členitosti textu). Po jejím skončení nastupuje kontrola vzhledu. Projíždím jednotlivé stránky a kontroluji, zda jsou odstavce správně odsazeny, zda kurzíva je opravdu kurzívou a zda je zarovnání správně nastaveno. Jestliže máte dostatek času a chcete si ponechat knihu ve formátu LibreOffice, tak si můžete pohrát i s obsahem, číslováním stránek, popisky obrázků a dalšími efekty, které však převodem do jiného formátu zmizí.

Po skončení úprav dostaneme již velice pěknou elektronickou knihu, kterou si můžete uložit do své elektronické knihovny v rozličných formátech. Pro převod můžete použít například již námi zmiňovaný eCub (formáty EPUB a MobiPocket). Já osobně vedu knihovničku ve formátu PDB (pozůstatky z historie, kdy jsem četl knihy na zařízení se Symbianem a Windows Mobile 5). Pro převod do tohoto formátu používám perlový script bibelot, do kterého exportuji kódovaný text z LibreOffice.

Jednoduchým příkazem pak převedu vybraný text do PDB:

$ perl bibelot.pl -t „Jmeno knihy“ zdrojovy_text.txt vystupni_kniha.pdb

Jak to všechno dopadlo?

Ve finále jsme převedli knihu obsahující 100 stran za necelé tři hodiny. Do tohoto času však započítávám i převod OCR (hodina). Jestliže byste tento postup absolvovali častěji a připravili si v textovém editoru styly, tak si dovolím tvrdit, že čistého času, kdy bude nutná vaše reálná přítomnost, bude potřeba tak hodina a čtvrt. Finálně převedená kniha se dá krásně číst, neobsahuje žádné významné chyby a i po čase se vám bude ve vaší elektronické knihovně dobře vyjímat.

_Reklama

Knihkupectví Kanzelsberger – hlavní partner speciálu Léto s (e)knihou

Síť knihkupectví po celé ČR, online prodej. Nabízíme více než 56 000 denně aktualizovaných záznamů knih všech žánrů: beletrie, dětské knihy, učebnice, slovníky, odbornou a technickou literaturu, historie, encyklopedie, hudebniny, mapy a atlasy.

www.kanzelsberger.cz | www.facebook.com/knihy.kanzelsberger

Připravil jsem si pro vás i ukázku výsledku – část knihy Mluvicí balík od Geralda Durrela. Můžete si prvních deset stránek stáhnout v PDF nebo v PDB. Druhý jmenovaný zobrazíte například v programu FBReader.

Odkazy

Vstoupit do diskuse (46 názorů)

Kamil Pošvic

jj, u toho linku na stažení je to napsáno, že pro uživatele Qt 4.6.x je potřeba ta druhá verze. Já používám Qt 4.7.2.

Kamil Pošvic

Sdílet

Získáváme vstupní data – skenujeme knihu

Převádíme obrázky na text

Finalizujeme textovou úpravu

Jak to všechno dopadlo?

Odkazy

Autor článku

Kamil Pošvic

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

[AKTUALIZOVÁNO 20. 11.]Black Friday spouští lavinu slev! Zjišťujeme, kde a na čem lze ušetřit i…

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Nová 3D tiskárna Prusa CORE One oznámena. Měl by se populární Bambu Lab začít bát?

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Renesance, nebo návrat Vegy? Radeony RX 9000 dostanou sjednocenou AI-herní architekturu UDNA

Čeští středoškoláci očekávají vypuštění své družice na oběžnou dráhu. Má tam pálit laserem po jiných

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Skenování knih a převod do eknih je hračka

Sdílet

Získáváme vstupní data – skenujeme knihu

Převádíme obrázky na text

Finalizujeme textovou úpravu

Jak to všechno dopadlo?

Odkazy

Autor článku

Kamil Pošvic

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

Mohlo by vás zajímat

Postřehy z bezpečnosti: pád tržiště pro DDoS útoky

Z našich webů

[AKTUALIZOVÁNO 20. 11.]Black Friday spouští lavinu slev! Zjišťujeme, kde a na čem lze ušetřit i…

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Nová 3D tiskárna Prusa CORE One oznámena. Měl by se populární Bambu Lab začít bát?

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Renesance, nebo návrat Vegy? Radeony RX 9000 dostanou sjednocenou AI-herní architekturu UDNA

Čeští středoškoláci očekávají vypuštění své družice na oběžnou dráhu. Má tam pálit laserem po jiných

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Dále u nás najdete

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Vláda chce odložit účinnost "digitální ústavy" o dva roky

Vyhněte se chybám a prodlužte životnost USB flash disku

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Edge zkouší nový trik na uživatele Chromu

SSD už také mají obrovskou kapacitu – až 122 TB

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Osvědčené způsoby, jak snížit vysoký krevní tlak

Přílišné uklízení škodí plicím stejně jako cigarety

Lumbální punkce sice vypadá děsivě, ale nebolí

Pokud potřebujete půjčit, nemusíte prodávat bitcoiny. Stačí je zastavit

První pacientka podstoupila genovou terapii bránící slepotě

Dřívější neplodnost dnes řeší miniinvazivní operace

Nevyžádané marketingové hovory přísnější zákon nevymýtil

Stow vytváří regálové systémy pro Alzu, Lidl i Rohlík

Policie zatkla provozovatele tržiště pro DDoS útoky

Je možné vyhrát nad Temu? Prodejci her se to podařilo

Děti, které nemají praktika, mohou jít do nemocničních ordinací

Nejen Coca-Cola, ale i Lidl má červený vánoční kamion