Doris Škarić from the Bavarian State Library reported about collaborative correction of OCR results by volunteers. She presented the IMPACT tool CONCERT (the COllaborative eNgine for the CorREction of Texts) and reported about the findings of a pilot test of the tool at the Bavarian State Library.
ttp://vimeo.com/32441126
[slideshare id=9697049&doc=09skarickollaborativekorrektur-111014092034-phpapp01]
Doris Škarić, tätig an der Bayerischen Staatsbibliothek, referierte über die kollaborative Korrektur von OCR-Ergebnissen.
Da die OCR-Texterkennung bei historischen Texten noch lange keine optimalen Ergebnisse liefert, ist eine manuelle Korrektur der Texte erforderlich, um eine gewinnbringende Volltextdurchsuchbarkeit zu erreichen. Kollaborativ ist die Korrektur dann, wenn mehrere Personen gleichzeitig an ihr arbeiten können. Auf Grund beschränkter Ressourcen wird dabei der Ansatzs des ‘Crowdsourcings’ immer beliebter, also der Einbeziehung der Nutzer in die Arbeit. Hier gibt es bereits eine Vielzahl unterschiedlicher Ansätze, von Googles ReCaptcha zu einem Internetspiel der Finnischen Nationalbibliothek, bei dem Maulwürfen “Wortbrücken” gebaut werden müssen.
In IMPACT wurde dafür die Web-basierte Plattform CONCERT (COllaborative eNgine for the CorREction of Texts) entwickelt. Deren Oberfläche und Funktionsweise stellte Frau Škarić kurz vor. Die Software verfolgt einen Ebenen-basierten Ansatz. Dabei werden dem Benutzer auf der ersten Ebene ‘Teppiche’ von gleichen Zeichen präsentiert. Hat die OCR einige Buchstaben falsch erkannt, so fallen diese sehr schnell auf und können mit einem Mausklick als fehlerhaft markiert werden. Auf der zweiten Ebene werden dem Nutzer ganze Wörter zur Bestätigung oder Korrektur vorgelegt. Erst auf der dritten Ebene wird die ganze Seite in den Blick genommen, hier können auch Segmentierungs- und Strukturerkennungsfehler behoben werden.
Anschließend berichtete sie über die einwöchige Pilotphase mit ca. 15 Teilnehmern, die an der Bayerischen Staatsbibliothek stattfand. In diesem Rahmen wurden die Nutzereindrücke und potentiellen Einsatzmöglichkeiten thematisiert.
RM (BSB); Mark-Oliver Fischer (BSB)