Automatická digitalizace knih a dokumentů

Přívlastek „digitální éra“ se považuje za natolik samozřejmý, že se už přestává používat, ale pokud se zamyslíme nad časovými souvislostmi dějin, tak dvě – či s přimhouřením oka tři – desetiletí jsou jen nepatrným úsekem období, odkdy lidé začali zachycovat své myšlenky písemně a graficky. V knihách a později i novinách a časopisech je zaznamenáno intelektuální bohatství mnoha staletí.

Automatická digitalizace knih a dokumentů


Říká se, že za posledních několik málo let lidstvo nashromáždilo více informací než za celou dosavadní existenci – ty jsou samozřejmě již v digitální podobě, případně pokud i byly vytištěny, jsou k dispozici jejich digitální podklady. Snahou různých institucí je zpřístupnit co nejširšímu okruhu zájemců i starší obsah, který vznikl v tištěné podobě. Stejné úmysly mají etablovaná vydavatelství a samozřejmě i firmy, které často skladují velké informační bohatství v podobě papírových dokumentů.

Cíle

Hlavním cílem digitalizace je uchování a zpřístupnění obsahu. S výjimkou rukopisů a grafických dokumentů je nedílnou součástí digitalizace i převod obsahu dokumentu do textové podoby. V případě běžných dokumentů, knih, novin a časopisů z nedávné minulosti je výsledkem procesu digitalizace textový obsah s vloženými obrázky. V případě historických knih a jiných tiskovin, kde se předpokládá, že jejich zájemci budou chtít studovat v původní podobě, je výsledkem digitalizace grafický sken podkladu a případný text vzniklý jako výsledek OCR procesu se k naskenovanému dokumentu přidá ve formě metadat. Když už zmiňujeme metadata, ta se přidávají k naskenovaným dokumentům vždy, tedy i v případě, kdy není rozpoznán text. Tato ručně nebo automaticky přiřazená metadata umožňují snadné vyhledávání v dokumentech, případně indexování jejich obsahu.

Výhody

Na rozdíl od klasických knih a tiskovin, které byly vytištěny ve stovkách až milionech exemplářů, každý z titulů určených k digitalizaci stačí oskenovat a zpracovat jednou, přesněji jednou pro každou jazykovou variantu. S trochou nadsázky bychom mohli říci, že stačí jeden digitální originál pro celý svět. Tento originál se pak zpřístupní, případně poskytne k volnému či licenční smlouvou vázanému kopírování nebo k prodeji v závislosti na marketingových záměrech a legislativě, především co se týče autorských a licenčních práv.
Pokud nedojde k nějakému převratnému vynálezu technologie, o které v současnosti nemáme ani jen tušení, bude digitalizace knih, novin a dokumentů trvat několik desetiletí. Klíčovou otázkou je stanovení priorit a koncepčnost výběru materiálů, jež budou digitalizované, a samozřejmě výběr vhodné technologie a organizace procesů souvisejících se skenováním a zpracováním.

Pro úplnost, skenování papírových dokumentů je jen jednou z větví digitalizace analogového obsahu. Mnoho informačního, kulturního a historického bohatství je zachyceno na filmech, gramofonových deskách, magnetických páskách, obrazech a dalších druzích analogových nosičů obsahu. Právě digitalizace papírových dokumentů je logisticky a procesně nejnáročnější. Filmový nebo magnetický pás, případně gramodesky stačí založit do kopírovacího zařízení a proces digitalizace ve většině případů bude automatický, bez nutnosti asistence. Zkuste to porovnat s náročností digitalizace knihy, nebo dokonce celého ročníku renomovaných novin, a to i v případě, pokud máte štěstí a máte k dispozici svázaný ročník v dobré kvalitě.

Digitalizaci historických publikací se budeme věnovat v samostatné stati, tak vzhledem k historické hodnotě díla jsou náklady na jeho uchování druhořadé. V případě běžných publikací a dokumentů jsou náklady spojené s digitalizací klíčovým atributem. Kromě nákladů na logistiku, technologické procesy je často důležitou nákladovou složkou i vypořádání autorských práv.

Digitalizace historických knih

Pouze velmi málo historických publikací je k dispozici ve formě přímo vhodné na digitalizaci. Většina podkladů se před pořízením musí připravit – roztřídit, ošetřit, případně rozebrat nevyhovující vazby a podobně. Především u historicky cenných a unikátních materiálů je nutné dodržovat různé postupy a zásady, především co se týče manipulace, a prostředí, ve kterém se digitalizace realizuje. To na jedné straně klade vysoké nároky na automatizaci procesu, na druhé straně osvědčené a spolehlivé zařízení dokáže oskenovat historickou knihu šetrněji než vyškolený pracovník. Tím nemáme na mysli specialisty restaurátory, některé vzácné a více poškozené dokumenty mohou skenovat jedině oni.

Úvodní foto: © Andrea Danti - Fotolia.com
Komentáře