Technické limity vyhledávání

Obecně platí, že čím kratší a obecnější slovo zadáme, tím vetší množství výsledků dostaneme. Navíc u kratších slov je vyšší pravděpodobnost zobrazení chybného výsledku.

Pro ilustraci častých chyb ve vyhledávání jsme vybrali Martina Bútoru, krycí jméno „ECHO“
Pokus hledat dle krycího jména napříč všemi svazky je prakticky nemožný (téměř 10 000 výsledků). Dalším problémem je skloňování dle 2. pádu množného čísla (ech), kde je nalezeno mnoho chybných výsledků. Na nich lze demonstrovat často se vyskytující nedokonalosti OCR.
Např.
dva příklady špatné předlohy – všech přečteno jako ech

obdobně níže – písmena v předloze daleko od sebe

další příklady špatného čtení (nejčastěji u mikrofiší)

problémy mohou pochopitelně způsobit i cizí slova

OCR zatím velmi špatně čte rukopisy

občas se stane, že OCR přečte „digitální šum“ jako nějaké krátké slovo

I s výše uvedenými omezeními se lze s použitím omezovače fondů a uvozovek dopátrat pozitivního výsledku.


Ve fondu AKR 36 (X. správa) jsou mimo jiné uloženy plány a vyhodnocení Správy StB Bratislava, kde by se mohly nacházet archiválie, které se opravdu k „objektu“ s krycím názvem „ECHO“ vztahují. Po zadání je vyhledáno 45 výsledků, z nichž je přibližně 7 relevantních (především AKR 36 i.j. 815, 869 a 870). Toto vyhledávání však předpokládá znalost obsahu archivních souborů, které umožňuje určit vhodné omezení.

Dále jsou uvedeny nejčastější příklady zadání, které za stávajících omezení technologie nevedou k úspěšnému výsledku.

PŘÍLIŠ OBECNÉ ZADÁNÍ

Jak již bylo popsáno výše, krátká a obecná slova jsou problematická, protože zvyšují pravděpodobnost chybných výsledků. Zcela obdobně to platí u jmen: Jan Novák, Josef Pavel nebo Karel Novotný zobrazí stovky až tisíce výsledků. Částečně lze množství výsledků omezit přidáním uvozovek, kde se poté vyhledává přesně zadaný řetězec (např. „Josef Pavel“ má jen přes 200 výsledků), ovšem za cenu, že se zbavíme případů, kdy je jméno vyskloňované. Obdobně to platí pro pokusy s vyhledáváním zkratek (CIA, CIC, OSN, PS VB), např. CIC – cca 7500 výsledků. Ovšem při zadání CIC Vídeň se dostaneme na 250, což už lze prostudovat.

CIZÍ JAZYKY

OCR dokáže číst řetězce v cizích jazycích, ovšem použitý slovník je pochopitelně v češtině, takže vyhledávání je tím samozřejmě ovlivněno. Největší podíl dokumentů v cizích jazycích má ze zjevných důvodů slovenština. U slovenských výrazů je proto nutné počítat jednak s vyšší chybovostí a také s tím, že při vyhledávání např. slova kapusta může být vyhledáno i zelí. Obdobně při zadání slova nohavica dojde k vyhledání velkého množství archiválií ve slovenštině, které se nějak dotýkají problematiky kalhot.

ČÍSLA

U čísel existují dva zásadní problémy. Jednak hledání číselných řetězců je obecně výrazně horší než u písmen a zároveň archiválie obsahují nesmírné množství čísel, takže výsledek vyhledávání např. dle registračních čísel je velmi zatíženo nerelevantními výsledky.

DOHLEDÁVÁNÍ SVAZKŮ A AGENTURNÍCH ZÁZNAMŮ

Pokus nalézt svazky kombinací registračního čísla daného svazku a krycího jména pravděpodobně nebude příliš úspěšný, důvodem je především kvalita předlohy (výsledky OCR u mikrofiší jsou, jak už bylo uvedeno, většinou horší), dále problémy se čtením číslic (mohou být nalezeny kombinace podobné nebo jiná čísla – telefonní, jednací apod.). Navíc je vše ještě umocněno strojopisným nebo i rukopisným vyplňováním do předtištěných formulářů, kde kvůli častému překryvu a špatné kvalitě tiskopisů účinnost OCR dále klesá.

SEZNAMY OSOB

Pro vyhledávání víceslovných řetězců (např. vojenská nemocnice Střešovice) je OCR upraveno tak, aby vyhledalo relevantní slovní spojení, i pokud slova neleží vedle sebe (stávající limit je 10 slov). Mnohdy je to velmi výhodné, ale v některých případech to může působit problémy. Nejčastější jsou při vyhledávání obecnějších jmen a příjmení. Archiválie totiž obsahují i množství seznamů, v nichž jsou často osoby se stejným jménem a příjmením blízko sebe a jsou proto vyhledány – např. při zadání Jiří Sedlák je nalezen seznam, kde jsou blízko sebe Alois Sedlák a Jiří Bořil.