OCR voor uw organisatie

Optical Character Recognition; wat is het en wat kunt u er mee?

Door: Bram Groenendijk op 20 november 2014

OCR staat voor ‘Optical Character Recognition’. Simpel gezegd is OCR een techniek die tekst uit afbeeldingen weer als actieve tekst herkent. Deze herkende tekst is doorzoekbaar in daarvoor bestemde viewers, beeldbanken, ECM-systemen, DMS-systemen, etc.

Herkenningsnauwkeurigheid
Welk kwaliteitsniveau kun je verwachten? Er zijn diverse zogenaamde OCR-engines op de markt. Sommige zijn beschikbaar als SDK/API, anderen als complete software suite. De engine of software suite is bepalend voor de herkenningskwaliteit. Van cruciaal belang is echter de kwaliteit van het origineel. Een percentage voor de herkenningsnauwkeurigheid is niet te bepalen zonder na te gaan wat de kwaliteit van het originele archiefstuk is. Een keurig schoon geprint A4-tje zwart wit, of een matig kopietje van een origineel met zeer beperkte densiteit en hoge hoeveelheid ruis, leveren zeer uiteenlopende resultaten op. Daarnaast zijn zowel de afmetingen van de te herkennen tekst als de scanresolutie van het archiefstuk bepalend.

OCR in productiemodus
Koop je als consument vandaag de dag een All-in-one printer, dan is de kans groot dat hier een prachtige OCR-tool is bijgeleverd. De techniek OCR is niet nieuw meer, ook al is het ontwikkelen, door ontwikkelen en optimaliseren van de engines een ‘on-going process’, wat al decennia lang volop in beweging is. Met een bijgeleverde OCR-tool kun je als consument redelijk goede resultaten verwachten als je een simpel A4 document aan een ‘OCR-behandeling’ onderwerpt. Het OCR-en van grote archiefcollecties vereist echter ‘grover geschut’. Behalve de herkenningsnauwkeurigheid, speelt verwerkingssnelheid en ondersteunde outputformaten een belangrijke rol.

GMS beschikt hiervoor over de geavanceerde oplossing van ABBYY, welke o.a. ALTO-XML en PDF/a als output genereert. De oplossing biedt ondersteuning voor multi-core verwerking over meerdere fysieke processoren en zelfs hardware matige servers. Dankzij deze oplossing OCR-en wij op jaarbasis miljoenen pagina’s van de meest uiteenlopende archiefcollecties.

Waarom OCR toepassen?
Kan gesteld worden dat OCR altijd een verrijking is voor een archief? Ja, primair bezien is OCR een verrijking. Het biedt de mogelijkheid om op het ‘diepste’ niveau binnen een archief naar specifieke termen te zoeken. Levert OCR daarom in alle cases meerwaarde op? Nee, zeker niet altijd. Even een kort uitstapje om toe te lichten waarom het antwoord hierop ‘nee’ is.

OCR is geen ‘navigatiemethode’. In de blog ‘Digitaliseren om te digitaliseren, doe het niet ’ komt duidelijk naar voren dat het aanbrengen van een structuur ofwel hiërarchie binnen de in te zetten applicatie en binnen het te digitaliseren archief van essentieel belang is. Is er een bruikbare ‘zoekingang’ in deze structuur opgenomen als vertrekpunt voor de navigatie, dan kan een gebruiker die geen wetenschap heeft van de inhoud van een archiefstuk op gemakkelijke wijze ‘navigeren’ binnen de hiërarchie in de applicatie die de organisatie gebruikt. Deze zoekingang kan gebaseerd zijn op het principe ‘zaakgericht werken’. Het kan zo zijn dat de gebruiker geen idee heeft van de zoekterm om bij het betreffende archiefstuk te komen. OCR heeft in die situatie dus geen meerwaarde.

Wanneer heeft OCR wel meerwaarde? In de situatie dat de zoekingang niet bruikbaar is om de desgewenste informatie te leveren, heeft OCR meerwaarde. Stel: je zoekt een geboortedatum van een persoon en raadpleegt hiervoor een zogenaamde krantenbank. Er is geen enkele zoekingang om het gewenste resultaat op te leveren. In dat geval biedt OCR absolute meerwaarde om het geboorteberichtje uit de juiste krant te tonen.

Om na te gaan of OCR dus meerwaarde biedt, is het verstandig om de vraag te stellen: zijn de zoekingangen die ik in de hiërarchie van het raadpleegsysteem als leidend aanhoud in alle gevallen afdoende om alle informatie die benodigd kan zijn aan te leveren? Is dit niet het geval, dan is het toepassen van OCR dus zinvol.