Analyse und Nachkorrektur von OCR-Ergebnissen

Impact CoCNews

Ulrich Reffle, who works at the Centre of Information and Language Processing of the Ludwig-Maximilians-University Munich, spoke about document-centric analysis and error detection, which can enable faster and easier correction of OCRed historical texts.

http://vimeo.com/32260841

[slideshare id=9697032&doc=07reffleanalyseundnachkorrektur-111014091950-phpapp02]

Ulrich Reffle vom Centrum für Informations- und Sprachverarbeitung (CIS) der Ludwig-Maximilians-Universität referierte über die dokumentenbasierte Analyse und Korrektur von historischen Volltexten.

Dabei ging er zunächst auf die für alte Drucke spezifischen Probleme bei der OCR-Texterkennung ein. Anschließend wurde die Möglichkeiten dokumentspezifischer Sprach- und Fehlerprofile erläutert. Historische Werke unterscheiden sich in ihren spezifischen Charakteristika (verwendete Sprachen, Schrifttypen, etc.) oft deutlich mehr als moderne Texte. Entsprechend kann Wissen darüber zu einer deutlichen Verbesserung der Qualität von OCR-Ergebnissen, Nachkorrektur und Information Retrieval (Suche) führen. Die Profile werden dabei vollautomatisch auf Basis der reinen OCR-Ausgabe erstellt.

Ihren konkreten Einsatz präsentierte der Referent am interaktiven Nachkorrektursystem des CIS. Es erkennt historische Schreibvarianten und bietet eine Batchkorrektur für typische OCR-Fehler. Eigene Tests hätten eine Beschleunigung um das 2,7-fache gegenüber der Korrektur Wort für Wort ergeben.

Das Korrektursystem soll demnächst als (vorerst) kostenloser Webservice bereitgestellt werden.

RM (BSB); Mark-Oliver Fischer (BSB)