Informatie aanvragen

Heeft u een vraag? Laat het ons weten en we nemen binnen één werkdag met u contact op!

OCR (Optimal Character Recognition)

Op zoek naar een oplossing om je gescande documenten doorzoekbaar te maken? GMS is dé digitaliseringsspecialist. Met onze geavanceerde herkenningssoftware maken wij het mogelijk om uw documenten (volledig) geautomatiseerd doorzoekbaar te maken. Van scanning tot herkenning, GMS biedt de totaaloplossing.

Optical Character Recognition (OCR), staat voor het automatisch herkennen van karakters. Als bronmateriaal worden afbeeldingen gebruikt waar tekst op staat. Door middel van patroonherkenning kan de software automatisch de karakters herkennen. De herkende tekst kan in daartoe geschikte bestandsformaten worden opgeslagen. Voor dit proces maken wij gebruik van een server gebaseerde, schaalbare OCR-applicatie in combinatie met Enterprise-Level servers.

 

Scanning

Om tot een afbeelding van een document te komen, gebruikt GMS hoogwaardige productie scanners. Hierdoor kunnen we op een zeer efficiënte manier hoogwaardige afbeeldingen maken van uw documenten.

Het scannen werkt als volgt

Bij het digitaliseren, of scannen, van beelden wordt een raster techniek gebruikt. Hierbij wordt er over het beeld een raster gelegd waarbinnen puntmetingen worden uitgevoerd. Deze puntmetingen worden ook wel pixels genoemd. Hoe meer pixels, des te meer details.

Pixels

U kent het vast wel, als u erg inzoomt op een afbeelding wordt de afbeelding ‘geblokt’. U ziet dan de pixels die weergegeven worden als een blokje. Dit blokje is het raster punt en dus de pixel. De pixels zijn gekleurde blokjes die als zodanig opgeslagen zijn in het beeldmateriaal.

Resolutie

De resolutie is het aantal pixels per oppervlakte-eenheid, deze wordt bij scanning aangeduid als DPI (of PPI), wat staat voor Dots Per Inch (PPI is de officiële term, namelijk Pixels per Inch). Voor het maken van scans is de meest gebruikte kwaliteit 300 DPI. 300 pixels in de breedte bij 300 pixels in de lengte per inch. Het detail bij deze resolutie is dermate hoog dat bij het inzoomen van scans details goed leesbaar blijven, terwijl de bestandsgrote acceptabel blijft.

Om gebruik te maken van OCR is een minimale resolutie van 300 DPI nodig, zodat het karakter goed leesbaar gemaakt kan worden voor de software.

Contrast

Een andere belangrijke variabele bij het digitaliseren en herkenbaar maken van karakters, is het contrast. En dan met name het contrast met de achtergrond (helderheid contrast). Denk hierbij aan een zo wit mogelijke achtergrond met een zwart karakter.

Het karakter moet duidelijk en goed te onderscheiden zijn van de achtergrond. GMS gebruikt hier speciale software voor om een zo hoog mogelijk contrast te creëren, waardoor de herkenning geoptimaliseerd wordt. Dit doen wij door met uitvalkleuren en/of indexeerbare kleuren te werken. Hierdoor wordt het contrast zo groot mogelijk gemaakt.

Dit is belangrijk omdat, met name bij archieven, het bronmateriaal vergeeld of de inkt verbleekt. Hierdoor wordt de contrast verhouding aangetast en is de achtergrond voor onze software moeilijk te onderscheiden van de tekst. Door de tekst te benadrukken (zwarter te maken) en de achtergrond helderder, ontstaat er een hoger contrast.

Door het contrast softwarematig te verhogen, kan het voor komen dat details verloren gaan (in de achtergrond op gaan). Het is daarom niet mogelijk alle document soorten te kunnen herkennen. Onze adviseurs staan altijd voor u klaar om u hierover te informeren.

OCR

Omdat de afbeelding herkend moet worden zal de OCR-programmatuur de afbeelding rechttrekken zodat tekst op een goede manier herkend kan worden. Dit doet de software in zijn geheugen, zodat het origineel daarbij niet aangetast wordt.

Waar nodig zal de software ook de nodige (automatische) verbetering toevoegen, omdat niet elk document hetzelfde is.

Nadat de afbeelding geschikt gemaakt is voor OCR-herkenning, zal deze softwarematig herkend worden. Dit doet de software door patronen in de afbeelding te herkennen.

De software beschikt over patronen van pixels die vertaald kunnen worden naar een ASCII-karakter. Doordat de software onderscheidt kan maken tussen achtergrond en karakter kan een patroon in (zwarte) pixels herkend worden. Deze wordt vervolgens tegen een index met ASCII-karakters gelegd, om zo tot een aannemelijk resultaat te komen.

Door tevens spaties te herkennen (wit ruimte) kunnen woorden gevormd worden, door speciale karakters te herkennen kunnen zinnen gevormd worden. Zo wordt het gehele document in feite geïndexeerd en aan de metadata van het beeldmateriaal toegevoegd.

Door deze gegevens aan de meta data toe te voegen, wordt het document ‘doorzoekbaar’. Deze meta data kan eventueel ook gebruikt worden voor vervolgtrajecten, bijvoorbeeld door bepaalde waarden aan uw workflows toe te voegen, waardoor het document ‘automatisch’ verwerkt kan worden.

Is OCR volledig betrouwbaar

Nee, alleen OCR is niet volledig betrouwbaar, maar er kan wel een hoge mate van betrouwbaarheid gecreëerd worden.

Omdat de software zich baseert op patroonherkenning en daar een zo aannemelijk mogelijk resultaat aan koppelt (ASCII karakter), is het niet 100% betrouwbaar. U kunt zich vast wel voorstellen dat een ‘I’ (hoofdletter i) en een ‘l’ (kleine letter l) op deze manier niet van elkaar te onderscheiden zijn. Een ander veel voorkomende fout is de 0 en o.

Het onderscheidt tussen deze pixel patronen is nagenoeg te verwaarlozen, daarom is het lastig voor de software om daar een keuze in te maken.

De betrouwbaarheid kan echter aanzienlijk verbeterd worden wanneer de software op basis van context werkt. Als u weet dat er geen numerieke waarden kunnen voorkomen in de tekst, kunnen de numerieke waarden uitgesloten worden en voorkomt u dat (bijvoorbeeld) de 0 herkend wordt in plaats van de o.

Dit gaat nog veel verder, wanneer er bijvoorbeeld gewerkt wordt met woorden boeken (zoals gebruikt in spellingscontroles), of formateringen (zoals gebruikt wordt bij postcode herkenning). Dan kan de kwaliteit van de herkenning aanzienlijk toenemen.

Maar om tot een 100% betrouwbaar resultaat te komen dient u een visuele controle toe te passen. Bij een visuele controle geeft onze software alle karakters (of woorden) waarover hij twijfelt ter visuele controle aan de gebruiker. Waarbij wij de software zodanig instellen dat twijfelgevallen lager dan een bepaald percentage, ter visuele controle, aangeboden worden. Hierdoor kan met 99,99% zekerheid vastgesteld worden dat de tekst goed herkend is.

Vaak is het niet nodig dat de tekst in het hele document 100% betrouwbaar is, maar een paar key index velden wel. Bijvoorbeeld voor vervolg stappen in uw proces (indexering, classificatie, e.d.). Dan hoeft er enkel een visuele controle plaats te vinden op enkele woorden in een document en hoeft een visuele controle niet al te veel tijd (lees kosten) te kosten.

Full text OCR

Niet alleen karakters kunnen herkend worden maar zelfs het font, afbeeldingen en de opmaak waarin de tekst van de bron is opgemaakt kunnen worden herkend. Dit wordt ook wel “Full text OCR” genoemd. Dit passen wij vooral toe bij het herkennen van boeken of het scannen naar bewerkbare documenten.

Vroeger werden enkel OCR A en OCR B lettertypes ondersteund voor goede herkenning. Tegenwoordig worden vrijwel alle fonts herkend door de software. Ook tekst opmaak, logo’s, grafieken en dergelijke worden herkend door de software. Hierdoor is een bijna exacte bewerkbare replica van de afbeelding te maken.

 

Stappenplan voor OCR

1Inventarisatie

Voordat we het digitaliseringsproces starten, inventariseren wij de brondocumenten. Ook bespreken we de wensen en eisen tot in detail. Hierin betrekken wij onze specialisten, die elk vanuit zijn of haar eigen discipline input geven.

2Projectplan

GMS maakt voor ieder project een speciaal projectplan. Het is, zeker als het gaat om dossiers en documenten, van essentieel belang om het project, met daarbij de eisen en wensen, goed af te kaderen. Data, afspraken en deadlines worden hierin verwerkt.

3Herkenning

GMS digitaliseert conform de eisen. Wanneer dit afgesproken is, voert GMS het project uit conform de eisen van substitutie. Extra controles op inhoud, kwaliteit en indexering worden gepleegd om te voldoen aan de substitutie-eisen.

4Nabewerking

De gedigitaliseerde bestanden en data worden conform wensen en eisen bewerkt en gerapporteerd aan de opdrachtgever, zodat deze naadloos aansluiten op uw werkprocessen.

Zijn de documenten geschikt voor OCR?

U kent het wel, pdf-documenten van honderden pagina’s. Wel zo makkelijk als deze doorzoekbaar zijn, zodat u en uw medewerkers snel tot de juiste informatie kunnen komen.

Om tot een doorzoekbaar dossier of archief te komen moeten uw gescande documenten herkend worden. Dat wil zeggen, de tekst in de documenten moet herkend worden, zodat u of uw medewerkers hierop kunnen zoeken.

Niet ieder document is echter geschikt voor OCR, daarom beoordelen onze specialisten eerst uw documenten en wat er nodig is om uw documenten betrouwbaar te laten herkennen. Zo kan het bijvoorbeeld zijn dat uw documenten eerst bewerkt moeten worden, voordat ze herkend kunnen worden. Bijvoorbeeld door het contrast softwarematig te verhogen, zodat de tekst beter naar voren komt. De nadruk bij de scans ligt dan niet op visuele gelijkenis van het origineel, maar op een betrouwbare herkenning. Onze adviseurs staan voor u klaar om u hierin te adviseren.

Kwaliteit en betrouwbaarheid

De betrouwbaarheid van de herkende data is afhankelijk van het bronmateriaal. Goed geoptimaliseerde scans kunnen een zeer hoge mate van betrouwbaarheid opleveren. Om tot een betrouwbare output te komen is echter niet alleen de kwaliteit van de scans van belang, maar ook de eventuele aanwezigheid van controles en referentietabellen.

GMS biedt de gepaste geautomatiseerde en visuele controles aan op de herkende data, waardoor we een nagenoeg foutloos resultaat kunnen garanderen. Vaak is het echter zo dat maar een deel van de data echt van groot belang is, dit noemen wij de ‘key index’ velden. Kortom, waarden waarop veel wordt gezocht door u medewerkers. Bijvoorbeeld referentienummers, productnummers, patiënt nummers, etc. In deze gevallen kunnen we extra controles op deze key index velden toevoegen.

OCR voor documenten en reguliere boeken

Niet alleen karakters kunnen herkend worden maar zelfs het font, afbeeldingen en de opmaak waarin de tekst van de bron is opgemaakt kunnen worden herkend. Dit wordt ook wel “Full text OCR” genoemd. Dit passen wij vooral toe bij het herkennen van boeken of het scannen naar bewerkbare documenten. Hierdoor is een bijna exacte bewerkbare replica van de afbeelding te maken.

Documenten en boeken worden meestentijds als multipage-file opgeslagen op ‘Issue’ niveau. De bestandsformaten PDF of PDF/a zijn hiervoor uitermate geschikt. Het grote voordeel van PDF of PDF/a is de geïntegreerde doorzoekbaarheid. Zowel de afbeelding als het OCR-resultaat zijn embedded in de PDF beschikbaar. Daarnaast is de PDF-standaard ook geschikt voor ECM en DMS-applicaties.

Gerelateerd