Marian Hellema is involved with the large-scale newspaper digitisation project at the KB.
OCR (Optical Character Recognition) is needed for:
- Search and retrieval: fulltext search
- Presentation on a website: highlighting search terms or text-only presentation
Much is needed behind the screens of the OCR process, for example lay-out information. This is delivered through the ALTO standard (XML). ALTO provides information on the coordinates of text blocks, lines and words, linked to the image of a page. ALTO also gives information on the OCR accuracy level.
In short, OCR works like this:
- Adjustment the images (for example when they are skewed)
- Analysis of the page (recognising illustrations, text blocks, lines)
- Character recognition
Other possibilities are for example training of the software and the use of dictionaries.
[slideshare id=6958423&doc=impactdemo-dag16-02-2011-110217040733-phpapp02]
————————————————————————————————————————
Marian Hellema is betrokken bij het grootschalige krantendigitaliseringsproject van de KB (http://kranten.kb.nl).
OCR (Optical Character Recognition) is nodig voor:
- Zoeken en vinden: fulltext search
- Presentatie op een website: zoektermen highlighten of alleen-tekst presenteren
Achter de schermen bij het OCR proces is er van alles nodig, zoals bijvoorbeeld lay-out informatie. Dit wordt geleverd via de ALTO standaard (XML). ALTO geeft informatie over de coordinaten van tekstblokken, regels en woorden, gekoppeld aan het image van de pagina. Ook levert ALTO informatie over de betrouwbaarheid van de tekenherkenning.
In het kort werkt OCR als volgt:
- Bewerken van images (zoals rechtzetten van het image)
- Analyse van de pagina (zoals herkenning van illustraties, tekstblokken, regels)
- Tekenherkenning
Extra mogelijkheden zijn verder nog training van de software en het inzetten van woordenboeken.
Lieke Ploeger, Koninklijke Bibliotheek