Kunstmatige intelligentie en OCR combineren. Hoe?

MartijnDoor: Martijn Stam op 28 juni 2023

GMS combineert sinds kort twee werelden: OCR en kunstmatige intelligentie. Hoe? Met Een unieke high end OCR oplossing die continu doorontwikkelt! Het resultaat is een drastische steiging in de nauwkeurigheid van tekstherkenning. Het is dan ook niet verwonderlijk dat deze OCR-oplossing een trend is bij onze opdrachtgevers. Hoe we het noemen? Premium OCR. Wanneer gebruiken we ‘premium OCR’ en hoe werkt het?

Hoe verschilt premium OCR van standaard OCR?

Premium OCR verwijst naar een hoogwaardige OCR-oplossing (Optical Character Recognition), die geavanceerde functies en nauwkeurigheid biedt in vergelijking met standaard OCR-oplossingen. OCR-technologie wordt gebruikt om gescande of gefotografeerde documenten om te zetten in bewerkbare en doorzoekbare tekst.

Alhoewel onze OCR normaliter goede resultaten oplevert kunnen de resultaten bij bepaalde materialen nog meer geoptimaliseerd worden. Denk hierbij aan gevlekte papier of archief waarbij de inktdikte fluctueert. Maar ook aan oude gedrukte geschriften waarin andere letters voorkomen dan nu nog in gebruik zijn. De oude g bijvoorbeeld, kan zomaar verward worden met een 9. Dat is jammer, want zo is uw tekst minder doorzoekbaar.

 

Verbeterde functies van ‘premium OCR’

Door combinatie van OCR met kunstmatige intelligentie worden onleesbare tekens automatisch herkend en aangepast. Maar het gaat nog verder. Met behulp van de  kunstmatige intelligentie worden tekens, die met de klassieke OCR-technologie niet correct herkend zouden worden, toch correct gedecteerd en verwerkt. Hoe dit kan? De lay-out en structuur van documenten worden automatisch geanalyseerd, waarbij koppen, alinea’s, tabellen en andere elementen geïdentificeerd. Zijn herkende woorden niet in lijn met deze inhoudelijke structuur? Dan worden ze veranderd in het woord wat het op basis van algoritmes hoogstwaarschijnlijk had moeten zijn. De praktijk wijst uit dat deze vorm van OCR sterke kwaliteitsverbetering oplevert.

 

Bovendien zorgen de geavanceerde algoritmen en machine learning-technieken ook voor een hogere nauwkeurigheid bij het herkennen van complexe lettertypen, scans van wisselende kwaliteit en uitdagende document lay-outs. Een breed scala aan talen, waaronder minder gangbare en niet-Latijnse scripts wordt ondersteund. Onze Premium OCR-software heeft een uitgebreide taalbibliotheek en karakterherkenningsmogelijkheden.

 

Doordat de Premium OCR-engine geavanceerde beeldvoorverwerkingstechnieken bezit kunnen we  ook de kwaliteit van invoerbeelden verbeteren voordat OCR wordt uitgevoerd. Dit kan ruisonderdrukking, beeldrotatie, rechtzetten en achtergrondverwijdering inhouden om de herkenningsresultaten te optimaliseren. Uiteraard wordt deze techniek alleen gebruikt voor OCR-optimalisatie. Het is aan de opdrachtgever of wij deze beelden vervolgens ook op de wijze zullen afleveren.

 

Bovendien geeft deze high end OCR oplossing een verbeterde mogelijkheid om handgeschreven tekst te herkennen en om te zetten in digitale tekst. Deze innovatie kan de raadpleegbaarheid van (oude) archiefcollecties enorm vergroten. Wel is handschriftherkenning over het algemeen uitdagender en mogelijk (nog) niet zo nauwkeurig als machinegedrukte tekstherkenning. Een interessante mogelijkheid om samen te ontdekken dus!

 

Wanneer is Premium OCR interessant?

Premium OCR is niet altijd noodzakelijk. Soms is de standaard OCR ruim voldoende. Premium OCR-oplossingen worden met name gebruikt in sectoren die een hoge nauwkeurigheid en betrouwbaarheid vereisen bij het digitaliseren van documenten, zoals juridische zaken, gezondheidszorg, financiën en onderzoek. Ze bieden geavanceerde mogelijkheden om een breed scala aan documenttypen te verwerken en de algehele OCR-ervaring te verbeteren.

 

Zo kan Premium OCR kan waardevol zijn bij het extraheren van specifieke gegevens uit documenten, zoals het extraheren van informatie uit facturen, paspoorten of identificatiedocumenten. Het automatiseert het gegevensextractieproces en vermindert handmatige inspanningen, waardoor de nauwkeurigheid en efficiëntie worden verbeterd. Het verhoogt hiermee de productiviteit, stroomlijnt documentworkflows en verbetert de toegankelijkheid en analyse van gegevens.

 

Op basis van uiterlijke kenmerken van uw archief kunnen we bepalen of premium OCR u voordelen biedt. Ook een proef kan het eventuele voordeel van premium OCR uitwijzen. Benieuwd of premium OCR voor u van toegevoegde waarde is? Neem vrijblijvend contact op. Samen kijken we welke vorm van OCR het beste bij uw archief past!

 

 

Martijn
Martijn Stam Martijn is als manager Research & Development verantwoordelijk voor de innovatie binnen GMS. Hij is verantwoordelijk voor onder andere de ontwikkeling van onze Track-en-trace app 'Livetrace', frameworks voor automatische beeldverwerking, (substitutie)scanning en metadatering. Heeft u specifiek inhoudelijke vragen, laat het Martijn weten!

Plaats een reactie

Lees ook