Doorzoekbare bestanden online ontsluiten

MartijnDoor: Martijn Stam op 11 november 2020

Waarom heb ik OCR nodig? Welke bestandsformaten zijn geschikt voor de doorzoekbaarheid en de wijze van ontsluiten? En ten slotte, wat houdt zo’n bestandsformaat in? U leest het in deze blog.

Doorzoekbaarheid

Om een gescand beeld doorzoekbaar te maken op zoekwoorden is altijd OCR (tekstherkenning) vereist. De tekstlaag die wordt toegevoegd bij het OCR-proces is verder niet van invloed op de bestandsomvang. Veel klanten van GMS worstelen met de bestandsomvang. Hier gaan we in onze volgende blog verder op in en informeren en adviseren wij u over de mogelijkheden van bestandsformaten in relatie tot de bestandsomvang.

OCR in verschillende bestandssoorten

Het gescande beeld is voor de computer gewoon een afbeelding en de tekst moet daaruit geëxtraheerd worden en weggeschreven in een onderliggende onzichtbare laag. De ‘zuivere afbeeldingsbestanden’, dat zijn TIF, JPG en JP2, kunnen geen tekstinformatie bevatten. Die aparte tekstlaag moet dus in een ander bestandsformaat worden opgeslagen. Meestal wordt hiervoor een Alto-XML-bestand gebruikt. Bij de definitieve ontsluiting wordt in een browser het XML-bestand en het corresponderende beeldbestand over elkaar heen geprojecteerd. Door in de browser te zoeken op een woord- of lettercombinatie wordt dan de afbeelding met de gevonden combinatie getoond. De betreffende tekst wordt dan vervolgens aangelicht op de afbeelding. In een PDF of PDF/a kan de gevonden tekst worden weggeschreven in een onzichtbare laag die onder de afbeelding komt te liggen. Hier wordt die projectie van beeld boven de gevonden tekst dus gerealiseerd binnen het bestand zelf zonder dat daar speciaal een browser voor moet worden ingericht en beheerd.

Wijze van ontsluiten

Voor dagdagelijkse archieven waar veel mee gewerkt wordt is PDF het meest gangbare, bovendien vaak het meest geschikte bestandsformaat. Ontsluiting door middel van een beeldbestand met onderliggende tekstlaag in een browser, kan wel leiden tot het sneller vinden en inladen van een bepaald document. Aangezien gezien de benodigde infrastructuur hiervoor aanzienlijk is, is dit alleen praktisch voor grootschalige archieven. Denk hierbij aan de beeldbanken van erfgoedinstellingen en dergelijke.

Toelichting bestandformaten

We snappen dat niet iedereen zodanig bekend is met bestandformaten. Daarom hebben we hier de meest voorkomende bestandsformaten even op een rijtje gezet en voorzien van uitleg. Daarnaast geven we kort aan voor welk gebruik dit bestandsformaat relevant is.

TIF of TIFF (Tagged Image File Format)
Dit bestandsformaat behoudt, mits niet gecomprimeerd, alle beeldinformatie van de oorspronkelijke scan of foto. Er treedt dus geen enkel verlies van beeldinformatie op, waardoor de TIFF het ideale bestandsformaat lijkt voor fotografie en de conservering van cultureel erfgoed. Het bestandsformaat wordt vrijwel altijd als single-page gebruikt d.w.z. 1 afbeelding = 1 bestand. Er bestaat wel een multi-page variant van het TIF-formaat, maar dit wordt niet door alle software ondersteund en leidt tot een onwenselijk grote bestandsomvang. Ook de single-page TIF heeft als nadeel dat de bestandsomvang aanzienlijk is, maar hierover leest u in onze volgende blog meer.

JPG of JPEG (Joint Photographers Expert Group)
Wereldwijd het meest gebruikte bestandsformaat voor afbeeldingen. Het beeld is altijd gecomprimeerd, maar de ratio van die compressie is instelbaar. De reductie in bestandsomvang ten opzichte van een TIF is enorm, maar bij de gebruikelijke compressieratio van 80% is het verlies aan beeldinformatie niet of nauwelijks waarneembaar met het blote oog. Dit maakt het bestandsformaat bij uitstek geschikt voor massadigitalisering van documenten en presentatie op websites.

JP2 (JPEG 2000) komt ook wel voor met de extensies JPX, JPF, of J2K
Is de beoogde opvolger van het formaat JPG. Belangrijkste verschillen zijn een betere compressie, dus een kleinere bestandsomvang, bij gelijkblijvende beeldkwaliteit t.o.v. JPG. Het bestandsformaat is bezig aan een langzame opmars, maar wordt nog lang niet door alle software ondersteund. Alvorens voor dit bestandformaat te kiezen dient men dus wel goed na te gaan of dit geen problemen geeft met de uiteindelijke wijze waarop de beelden ontsloten gaan worden.

PDF en PDF/a (Portable File Format)
Het meest gebruikte en meest bekende bestandsformaat voor de uitwisseling van documenten. Het kan een vrijwel ongelimiteerd aantal pagina’s in één bestand bevatten en ondersteunt zowel afbeeldingen als tekst. De compressiemethode van in een PDF ingesloten afbeeldingen is ruwweg gelijk aan die van een JPG. Ook hier is de compressie instelbaar en zal bij de gebruikelijke 80% compressieratio nauwelijks waarneembaar verlies van beeldinformatie optreden. Ook bestaat de mogelijkheid tot het lossless (dus zonder compressie) insluiten van afbeeldingen hoewel dit een wat bewerkelijker en dus kosten intensievere productiemethode vereist. Daarnaast zal een PDF op ieder platform op dezelfde manier gepresenteerd worden en op iedere printer dezelfde opmaak en indeling behouden. Dat is namelijk het oorspronkelijke doel waarvoor dit bestandsformaat ontwikkeld werd. Het PDF/a-formaat (archivable) heeft ook al deze eigenschappen maar voldoet daarnaast aan een aantal voorwaarden op het gebied van XMP-metadata.

Conclusie

Vanuit een puur technisch oogpunt is er voor ieder archief een optimale bestandsformaat. Echter worden zaken als werkbaarheid, vertrouwelijkheid en toegankelijkheid in een technisch oogpunt vaak over het hoofd gezien.

Wil u meer weten of de bestandsformaten of wil u advies over het digitaliseren van uw archief neem dan contact met ons op. We gaan graag met u in gesprek hierover.

Martijn
Martijn Stam Martijn is als manager Research & Development verantwoordelijk voor de innovatie binnen GMS. Hij is verantwoordelijk voor onder andere de ontwikkeling van onze Track-en-trace app 'Livetrace', frameworks voor automatische beeldverwerking, (substitutie)scanning en metadatering. Heeft u specifiek inhoudelijke vragen, laat het Martijn weten!

Plaats een reactie

Lees ook