Zo veel mogelijkheden… Welk bestandsformaat en welke bestandsomvang kies ik?

MartijnDoor: Martijn Stam op 4 december 2020

Bij het digitaliseren van documenten moeten keuzes gemaakt worden over bestandsformaten en de wijze van ontsluiting. In deze blog wordt de doorzoekbaarheid en wijze van ontsluiten besproken, daarnaast geeft hij advies over de (verkleining van de) bestandsomvang.

Bestandsomvang

Een vraag die bijna altijd gesteld wordt, is wat de te verwachten totale bestandsomvang van de gedigitaliseerde documenten zal zijn. Het antwoord daarop is alleen vaak heel moeilijk te geven. In de eerste plaats is een gescand document nu eenmaal iets wezenlijk anders dan een document dat ‘digital born’ is. Als we even uitgaan van een doorsnee rapport van honderd A4-pagina’s – met een inhoud van voornamelijk tekst met hier en daar wat afbeeldingen – dan zal dat een Word-document (docx) opleveren van ca. 9 MB. Wanneer datzelfde document in kleur gescand wordt op een resolutie van 300 PPI en wordt opgeslagen in het TIF-formaat dan heeft een pagina opeens een omvang van ca. 25 MB. Het totale document komt dan op een verbijsterende 2,5 GB. Dat komt omdat de hele scan, ook het gedeelte waar tekst staat, een afbeelding is. Afbeeldingen nemen eenvoudigweg veel meer opslagruimte in beslag dan tekst. Dit illustreert meteen waarom het TIF-formaat eigenlijk niet geschikt is om gegevens te ontsluiten, het is gewoon te groot om nog werkbaar te zijn.

Als we kiezen voor een bestandsformaat met een beperkte datacompressie, zoals de JPG of de PDF, dan neemt de bestandsomvang enorm af. Wanneer datzelfde rapport van honderd pagina’s een PDF zou zijn, wordt de bestandsomvang gereduceerd tot 85 MB en bij JPG tot 75 MB. Merk hierbij wel op dat het niet altijd om een reductie tot 3,4% van de oorspronkelijke omvang gaat. Voor een TIF-bestand is de omvang bijvoorbeeld vast bij gelijke afmetingen en resolutie. Daarnaast werkt de JPG-compressie aan de hand van de kleuren en contrasten binnen de individuele beelden. Als hetzelfde gescande document dan veel grote donkere vlakken zou bevatten of op sterk verkleurd papier had gestaan, zou de omvang gemakkelijk tweemaal zo groot kunnen worden in JPG of PDF.

Uiteindelijk blijft het giswerk om te zeggen wat de exacte bestandsomvang van een document zal worden. Maar doorgaans komen honderd A4’tjes dus uit tussen de 75 en de 150 MB. De tekstlaag die wordt toegevoegd bij het OCR-proces is verder niet van invloed op de bestandsomvang. Voor datzelfde rapport is de totale omvang van de tekstlaag namelijk ca. 25 KB en dus verwaarloosbaar. In de vorige blog werd OCR in relatie tot bestandsformaten verder besproken.

Verdere reductie

Hoewel bestanden van 150 MB per honderd pagina’s op zich best hanteerbaar zijn binnen een netwerk, kan het toch nog te omvangrijk zijn voor sommige doeleinden. Met name binnen het PDF-formaat zijn er nog wel mogelijkheden om de gescande bestanden te verkleinen. Dat kan namelijk door te kiezen voor een lagere resolutie.

Documenten worden doorgaans gescand op een resolutie van 300 PPI. Dit is een standaard die nodig is voor drukwerk en voor het behalen van betrouwbare OCR-resultaten. Wanneer bestanden alleen gebruikt worden om op het beeldscherm te raadplegen en alleen incidenteel geprint worden, is zo’n hoge resolutie echter niet noodzakelijk. Wanneer een beeld gescand is en wordt geconverteerd naar een PDF met een tekstlaag gebruikt de OCR-engine de oorspronkelijke afbeelding om de tekst te extraheren. Vervolgens plaatst de engine daar een nieuw gegenereerde afbeelding overheen in de PDF. De resolutie van die nieuwe afbeelding kan ook lager zijn dan die van de oorspronkelijke afbeelding. Dit heeft verder geen enkele invloed op de nauwkeurigheid van de gevonden tekst, want die is nog steeds afkomstig van het bronbestand van 300 PPI. We kunnen de resolutie in principe traploos instellen, maar de meest gebruikte resoluties zijn 300, 150, 96 en 72 PPI.

Die resolutie is allesbepalend voor de bestandsomvang. Waar compressie van afbeeldingen wisselende resultaten kan geven, is resolutie gewoon omgekeerd evenredig met de bestandsomvang. Wanneer een afbeelding van een A4’tje niet op 300 PPI, maar op 150 PPI wordt opgeslagen, hoeft nog maar de helft van het aantal pixels in de hoogte en breedte te worden weggeschreven. De omvang van de afbeelding wordt dan dus verkleind worden tot 25%. Er zit nog wel wat ‘overhead’ binnen het PDF-bestand, maar bij het halveren van de resolutie wordt dezelfde PDF altijd 70% tot 75% kleiner. De doorzoekbaarheid blijft hierbij gelijk en op het beeldscherm is bij een zoom op 100% geen verschil te zien met de PDF van 300 PPI. Ook bij een print is er met het blote oog nauwelijks een verschil te zien. Wanneer we de resolutie nog verder verlagen tot 96 of 72 PPI is er op het beeldscherm wel een licht kwaliteitsverlies te zien, maar het geheel blijft goed leesbaar. Een print zal wel duidelijk ‘korreliger’ worden, maar zelfs dan is het nog wel goed te lezen.

Wanneer de bestandsomvang dus een issue dreigt te worden kan gekozen worden voor raadpleegbestanden op een lagere resolutie, die veel beter hanteerbaar kunnen zijn. Uiteraard kunt u er ook voor kiezen om een set bronbestanden op hoge resolutie in back-up te houden en een separate set raadpleegbestanden op uw netwerk te gebruiken.

Martijn
Martijn Stam Martijn is als manager Research & Development verantwoordelijk voor de innovatie binnen GMS. Hij is verantwoordelijk voor onder andere de ontwikkeling van onze Track-en-trace app 'Livetrace', frameworks voor automatische beeldverwerking, (substitutie)scanning en metadatering. Heeft u specifiek inhoudelijke vragen, laat het Martijn weten!

Plaats een reactie

Lees ook