Hlavní navigace

Automatická digitalizace knih a dokumentů

17. 2. 2017
Doba čtení: 8 minut

Sdílet

 Autor: © Andrea Danti - Fotolia.com
Přívlastek „digitální éra“ se považuje za natolik samozřejmý, že se už přestává používat, ale pokud se zamyslíme nad časovými souvislostmi dějin, tak dvě – či s přimhouřením oka tři – desetiletí jsou jen nepatrným úsekem období, odkdy lidé začali zachycovat své myšlenky písemně a graficky. V knihách a později i novinách a časopisech je zaznamenáno intelektuální bohatství mnoha staletí.

Říká se, že za posledních několik málo let lidstvo nashromáždilo více informací než za celou dosavadní existenci – ty jsou samozřejmě již v digitální podobě, případně pokud i byly vytištěny, jsou k dispozici jejich digitální podklady. Snahou různých institucí je zpřístupnit co nejširšímu okruhu zájemců i starší obsah, který vznikl v tištěné podobě. Stejné úmysly mají etablovaná vydavatelství a samozřejmě i firmy, které často skladují velké informační bohatství v podobě papírových dokumentů.

Cíle

Hlavním cílem digitalizace je uchování a zpřístupnění obsahu. S výjimkou rukopisů a grafických dokumentů je nedílnou součástí digitalizace i převod obsahu dokumentu do textové podoby. V případě běžných dokumentů, knih, novin a časopisů z nedávné minulosti je výsledkem procesu digitalizace textový obsah s vloženými obrázky. V případě historických knih a jiných tiskovin, kde se předpokládá, že jejich zájemci budou chtít studovat v původní podobě, je výsledkem digitalizace grafický sken podkladu a případný text vzniklý jako výsledek OCR procesu se k naskenovanému dokumentu přidá ve formě metadat. Když už zmiňujeme metadata, ta se přidávají k naskenovaným dokumentům vždy, tedy i v případě, kdy není rozpoznán text. Tato ručně nebo automaticky přiřazená metadata umožňují snadné vyhledávání v dokumentech, případně indexování jejich obsahu.

Výhody

Na rozdíl od klasických knih a tiskovin, které byly vytištěny ve stovkách až milionech exemplářů, každý z titulů určených k digitalizaci stačí oskenovat a zpracovat jednou, přesněji jednou pro každou jazykovou variantu. S trochou nadsázky bychom mohli říci, že stačí jeden digitální originál pro celý svět. Tento originál se pak zpřístupní, případně poskytne k volnému či licenční smlouvou vázanému kopírování nebo k prodeji v závislosti na marketingových záměrech a legislativě, především co se týče autorských a licenčních práv.
Pokud nedojde k nějakému převratnému vynálezu technologie, o které v současnosti nemáme ani jen tušení, bude digitalizace knih, novin a dokumentů trvat několik desetiletí. Klíčovou otázkou je stanovení priorit a koncepčnost výběru materiálů, jež budou digitalizované, a samozřejmě výběr vhodné technologie a organizace procesů souvisejících se skenováním a zpracováním.

Pro úplnost, skenování papírových dokumentů je jen jednou z větví digitalizace analogového obsahu. Mnoho informačního, kulturního a historického bohatství je zachyceno na filmech, gramofonových deskách, magnetických páskách, obrazech a dalších druzích analogových nosičů obsahu. Právě digitalizace papírových dokumentů je logisticky a procesně nejnáročnější. Filmový nebo magnetický pás, případně gramodesky stačí založit do kopírovacího zařízení a proces digitalizace ve většině případů bude automatický, bez nutnosti asistence. Zkuste to porovnat s náročností digitalizace knihy, nebo dokonce celého ročníku renomovaných novin, a to i v případě, pokud máte štěstí a máte k dispozici svázaný ročník v dobré kvalitě.

Digitalizaci historických publikací se budeme věnovat v samostatné stati, tak vzhledem k historické hodnotě díla jsou náklady na jeho uchování druhořadé. V případě běžných publikací a dokumentů jsou náklady spojené s digitalizací klíčovým atributem. Kromě nákladů na logistiku, technologické procesy je často důležitou nákladovou složkou i vypořádání autorských práv.

Digitalizace historických knih

Pouze velmi málo historických publikací je k dispozici ve formě přímo vhodné na digitalizaci. Většina podkladů se před pořízením musí připravit – roztřídit, ošetřit, případně rozebrat nevyhovující vazby a podobně. Především u historicky cenných a unikátních materiálů je nutné dodržovat různé postupy a zásady, především co se týče manipulace, a prostředí, ve kterém se digitalizace realizuje. To na jedné straně klade vysoké nároky na automatizaci procesu, na druhé straně osvědčené a spolehlivé zařízení dokáže oskenovat historickou knihu šetrněji než vyškolený pracovník. Tím nemáme na mysli specialisty restaurátory, některé vzácné a více poškozené dokumenty mohou skenovat jedině oni.

Digitalizace je zároveň vynikající příležitostí pro ošetření, zrestaurování a zakonzervování papírového originálu. Jako součást procesu zpracování se mohou aplikovat nejmodernější technologie, například zabudování RFID tagů za účelem snadnější identifikace a v neposlední řadě na ochranu před odcizením.

Zařízení pro automatizaci

V závislosti na druhu a skenovaných publikacích, především co se týče vazby a případných požadavků na speciální prostředí v případě historických materiálů, se využívají různé konstrukce manuálních skenerů nebo zařízení s nižším nebo vyšším stupněm automatizace. Robot na skenování vázaných knih mechanicky otáčí stránky a každá dvoustrana se následně skenuje nebo vyfotí. Na manipulaci, čili obracení stran, se využívají různé principy, nejčastěji mechanické, případně s kombinací podtlaku nebo elektrostatického náboje na přitlačení k podložce, čímž se naskenovaná strana vyrovná.

Na knihy, které mají tlustou nebo nepoddajnou vazbu, se využívají zařízení užívající skleněný úhelník, který se zasune do knihy, jež je fixována v poloze, kdy strany obálky svírají s podložkou 45 stupňů. Nejlépe to pochopíte z obrázku. Při obracení strany se úhelník se skenovacím zařízením zvedne, tenké robotické rameno opatrně obrátí stranu a následně se úhelník definovanou silou přitlačí na otevřenou dvoustranu, aby se vyrovnalo prohnutí stran.

Několik specializovaných výrobců nabízí také sofistikované řešení na digitalizaci křehkých nebo částečně poškozených vázaných materiálů.
Ceny digitalizace robotických zařízení, a to i na zpracování běžných dokumentů, jsou velmi vysoké a takové i zůstanou, protože jde o zařízení, která se nikdy nebudou masově vyrábět, ale budou sloužit pouze pro digitalizaci projektů na úrovni institucí, například národních knihoven a archivů a velkých firem. Investice se v dlouhodobém horizontu vyplatí, protože tyto roboty vyžadují pouze minimum lidských zdrojů při obsluze a dokážou si samy otáčet strany. Pro srovnání, při manuální digitalizaci se rychlost pohybuje od několika desítek stran za směnu až po několik stovek, čili hypoteticky se ruční otáčení stran může přiblížit k výkonnosti robota, ale jen za cenu velkého lidského úsilí.

Geografický a ekonomický paradox

příloha_ovladnete_sva_data

Takový politicky korektní nadpis jsme použili pro text, který se de facto věnuje digitalizaci outsourcingu. Informační bohatství totiž úzce souvisí s ekonomickým bohatstvím, a to obousměrně. Už v ranní éře publikování, kdy jedinou dostupnou formou uchování a sdílení informačního bohatství byly ručně psané a ilustrované knihy, platilo, že kláštery, města a země, které měly dostatek informačního bohatství, byly bohaté i z ekonomického hlediska. Proč vzpomínáme kláštery? Knihy totiž psali učenci a přepisovali je mniši. Tento geografický paradox přetrvává, a proto nejzajímavější a nejcennější materiály, které je třeba digitalizovat, se nacházejí v ekonomicky vyspělých zemích. Ano, budete namítat historickými říšemi, které se nacházely na území v současnosti méně ekonomicky vyspělých zemí. Nebudeme rozebírat příčiny, proč se tyto materiály ocitly v depozitářích muzeí ve vyspělých zemích. I v posledních desetiletích před érou digitalizace vznikaly publikace s cenným obsahem, co se týče počtu, více v ekonomicky vyspělých zemích.

Zároveň je v těchto zemích i nejdražší pracovní síla a digitalizace je na objem kvalifikované práce velmi náročným procesem. Proto skenování v zemích jako Velká Británie, Francie, Španělsko, Německo, USA je velmi drahé a podobně jako u mnoha jiných procesů i při digitalizaci dokumentů se s výhodou využívá outsourcing. Na digitalizaci se proto využívají i pracoviště „v zámoří“, které zadavatel zakázky často sám vytvoří a vyškolí personál. Náklady jsou několikanásobně nižší, hlavně co se týče lidských zdrojů.

Byl pro vás článek přínosný?