eBadatelna
Elektronická badatelna Archivu bezpečnostních složek (eBadatelna) slouží k dálkovému nahlížení do archiválií dle zákona č. 499/2004 Sb., o archivnictví a spisové službě, a k zobrazování archivních pomůcek k archivním fondům našeho archivu. Jde jak o nové archivní pomůcky, tak o pomůcky, jež byly přepsány z tištěné verze. Pokud jsou již k jednotlivým inventárním jednotkám vloženy jejich digitální reprodukce, můžete je rovněž zobrazit. Zobrazení archivních pomůcek a vyhledávání v nich nevyžaduje registraci, nicméně po kliknutí na příslušný sken si aplikace vyžádá Vaši autorizaci. Pokud jste již v systému zaregistrovaní, stačí zadat Váš e-mail a heslo a můžete prohlížet archiválie bez omezení. Pokud doposud zaregistrováni nejste, postupujte, prosím, dle návodu v záložce „Nápověda“, kde jsou i další informace pro usnadnění práce s aplikací.
Od počátku listopadu umožňuje eBadatelna přímé prohledávání zpřístupněných archiválií prostřednictvím technologie OCR (Optical Character Recognition). V tomto rozsahu se jedná v rámci České republiky o novátorský počin, který nabízí badatelům zcela nové možnosti při prohledávání archiválií. Protože v rámci českého archivnictví s praktickým použitím této technologie v podobném rozsahu nejsou dostatečné zkušenosti, nezbývá nám než tuto cestu prošlapat spolu s Vámi.
Ke správnému používání nového způsobu hledání by měly napomoci i níže uvedené informace:
Vyhledávání pomocí OCR není rozhodně samospasitelné. Jde o velmi dobrou pomůcku pro získání dalších informací, ale z důvodu omezení technických (o stávajících limitech technologie zde) i objemových (v eBadatelně nejsou zdaleka všechny archiválie) bude ještě dlouho nezbytné využívat i doposud běžný postup, tedy hledání za pomoci databázi archivu a za využití archivních pomůcek. Ostatně sebelepší technologie prozatím nedokáže nahradit zkušenosti získané při dlouhodobé práci s fondy, kdy je podstatné především vědět co hledáme, jinak se v množství materie utopíme. Tyto stránky by Vám měly pomoci lépe se zorientovat v možnostech vyhledávání prostřednictvím OCR a poskytnout rady a tipy, které dali kolegové archiváři dohromady v průběhu testování v předchozích měsících.
Co je OCR?
Optické rozpoznávání znaků (OCR, z anglického Optical Character Recognition) je metoda, která umožňuje „přečíst“ naskenované dokumenty (obrázky) a případně je převést do textové podoby. Díky tomu lze pak v textu vyhledávat slova, která badatele zajímají (například jména osob, podniků, míst či hesla spojená s událostmi).
Jak OCR funguje?
Převod do textu provádí počítačový program. V našem případě jde o otevřený systém Tesseract od Googlu. Je to široce používaný a stabilní produkt, dostupný zdarma, což je s ohledem na rozpočtové možnosti archivu výrazná výhoda. Kvalita převodu je velmi závislá na kvalitě předlohy, čím je předloha „čitelnější“, tím lepších výsledků OCR dosahuje. Proto jsou u nás nejlepší výsledky získány u kvalitních strojopisných textů. U tištěných předloh (např. noviny a jiné publikace) je to ještě lepší, ale z pochopitelných důvodů je u nás tisků jen málo. Horší (avšak stále využitelné) výsledky jsou u naskenovaných mikrografických předloh (především z tzv. mikrofiší). Přesnost u rukopisných textů je obecně dost nízká.
Používání OCR
Protože, jak bylo řečeno výše, OCR už velmi dobře „čte“ tištěné homogenní texty, je ponejvíce dlouhodobě využíván různými knihovnami po celém světe, včetně Národní knihovny ČR.
Archivy to mají poněkud složitější, protože na rozdíl od knihoven se musí vypořádat s velmi heterogenním typem předloh z hlediska typů písma, kvality atd. Přístup k použití je v zásadě dvojí. Pokud jsou předlohy více méně stejného typu a dostatečné kvality, lze rovnou vytvořit přepis textu, což používá např. CIA. Druhou, mnohem častější možností, je použití OCR jako základu pro vyhledávání v archiváliích. Dlouhodobě se tímto zabývá např. archiv v Bad Arolsen a touto cestou se vydal i Archiv bezpečnostních složek.
Výhody
Do této doby bylo možné vyhledávat jen v textech inventářů a v rejstříkových záznamech. OCR ale umožňuje vyhledávat přímo v jednotlivých stránkách digitalizovaných archiválií. Badatelé tak mohou získat výrazně větší vhled do zkoumané matérie. Zpřístupnění archiválií se tím dostává na úplně jinou úroveň. Lze vypátrat souvislosti, které se dříve objevily jen náhodou při časově náročném pročítání dokumentů.
Nevýhody
Ani OCR neobjeví zdaleka vše, přestože toho najde řádově víc než dosavadní prohledávání inventářů. Kvalita rozpoznání textu není (a vzhledem k omezené kvalitě předloh ani nikdy nebude) stoprocentní. Stále také zůstává v platnosti, že informace nalezené v dokumentech je nutné kriticky interpretovat. Lepší technologické nástroje na tom nic nemění. S postupným zlepšováním softwaru se bude průběžně i zlepšovat schopnost dokumenty „číst“ – tedy zvyšovat množství nalezených řetězců.
Jak OCR používat?
Pod následujícím odkazem najdete jednoduchý návod, který vám usnadní práci s vyhledáváním.
Jak co nejlépe hledat, co potřebuji?
Jak už bylo zmíněno, OCR vyhledávání nefunguje na principu „zadám slovo a vypadne mi všechno“. Jako pomůcka pro vyhledávání může být velice užitečný, ale je zapotřebí trocha praxe. Pod níže uvedenými odkazy najdete příklady, které pro Vás připravili kolegové z archivu v průběhu testování a další informace, jež by Vám při používání vyhledávání mohly pomoci.
Příklady dobrého zadání,
kdy OCR může výrazně pomoci s dohledáním dalších informací
Příklady technických omezení a problematických zadání,
kdy OCR příliš nepomůže