Stefan Pletschacher from the University of Salford presented methods to evaluate OCR results. For a proper evaluation, ‘ground truth’, that is almost 100% correct text is needed. But a big challenge lies in how to calculate the gravity of different kinds of errors. Will character or word accuracy be used? Do errors in heading count more than errors in footnotes? How are errors in a page’s structure measured?
http://vimeo.com/32262541
[slideshare id=9697058&doc=10pletschacherevaluationswerkzeuge-111014092058-phpapp01]
Stefan Pletschacher von der University of Salford präsentierte Methoden zur automatisierten Evaluierung der Qualität von OCR-Ergebnissen.
‘Qualität’ ist dabei keine feste Größe, sondern abhängig von den gewünschten Zwecken. Werden OCR-Fehler auf Zeichen- oder Wortebene gezählt? Sind Fehler in Überschriften schlimmer als in Fußnoten? Wie werden Fehler in der Layouterkennung (z.B. als Fließtext erkannte Überschriften, falsche Lesereihenfolge, …) gewertet?
Für eine automatisierte Evaluierung ist “Ground Truth” unerlässlich, also annähernd 100% ‘richtige’, in Handarbeit erstellte Volltexte und Strukturinformationen. Dazu hat IMPACT Hilfsmittel wie ‘Aletheia’ (griech. die Wahrheit) entwickelt.
Anschließend stellte Herr Pletschacher das von IMPACT verwendete PAGE-Dateiformat vor und ging im Detail auf die verschiedenen Typen von Layout- und OCR-Fehlern und die Schwierigkeit ihrer Gewichtung ein.
RM (BSB); Mark-Oliver Fischer (BSB)