Gerd Zechmeister of the Austrian National Library talked about different approaches to improve OCR accuracy by working on the many challenges inherent in the digital images of historical texts (e.g. geometrical correction against curves and creases; removal of black borders around pages, better binarisation, …).
http://vimeo.com/32259328
[slideshare id=9696876&doc=04zechmeisterbildoptimierung-111014091135-phpapp02]
Gerd Zechmeister von der Österreichischen Nationalbibliothek beschäftigte sich mit der Bildoptimierung, also der Bearbeitung der Bilder auf eine Texterkennung hin. Denn ein optisch problemloses Bild lbedeutet noch nicht automatisch eine gute Texterkennung. Er stellte kurz einige der Herausforderungen des Materials vor (Wölbungen und Knicke im Papier, schwankendes Druckbild, durchscheinender Text von der Seitenrückseite, schwarze Ränder), bevor er an Hand einiger Beispielbilder auf mögliche Lösungen einging, darunter Randentfernung, geometrische Korrektur und verbesserte Binarisierung. Dabei wies er auch daraufhin, dass die ideale Reihenfolge nicht von vornherein feststeht, sondern experimentell herausgefunden werden muss ( Führt bspw. Randentfernung vor oder nach Binarisierung zu besseren OCR-Ergebnissen?)
Für seinen späteren Vortrag “Verbesserte OCR-Software für historische Dokumente” (um 15:10 Uhr), kündigte er den Vergleich von OCR-Ergebnissen mit und ohne Bildvorverarbeitung an.
RM (BSB); Mark-Oliver Fischer (BSB)