Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT

Impact CoCDiscussions

Sven Schlarb von der Österreichischen Nationalbibliothek stellte die im Rahmen von IMPACT entwickelten technischen Werkzeuge und deren Zusammenarbeit vor.

[slideshare id=3333343&doc=schlarbimpact-werkzeuge-100304062618-phpapp02]

http://www.vimeo.com/9913776

Der Vortrag begann mit einer Übersicht der Schwierigkeiten, vor denen einen die Digitalisierung und Texterkennung historischer Texte stellt. Durch Feuchtigkeit oder Dicke der Bücher gewölbte Buchseiten, Falten und Knicke in den Seiten, Farbflecken, unterschiedliche Druckintensitäten, durchscheinende Buchstaben von der Rückseite, Frakturschrift, handschriftliche Anmerkungen, historische Sprachen und Schreibvarianten oder komplexes Layout stellen eine automatische Texterkennung vor große Herausforderungen.

Für viele dieser Probleme versucht IMPACT aber, Lösungen zu entwickeln. So werden Werkzeuge entwickelt, die z.B. schwarze Ränder um ein Bild, die OCR eventuell verwirren können, erkennen und entfernen können, Wölbungen und Falten geometrisch entzerrt werden und Binarisierung verbessert werden soll.

Durch die Entwicklung historischer Lexika in den Sprachen Deutsch, Niederländisch und Englisch (sowie weiterer durch die neuen, osteuropäischen Partner) und die Erstellung eines Verzeichnisses historischer Eigennamen soll die Worterkennung historischer Texte verbessert werden.

Ein spannendes Werkzeug stellt auch der Functional Extension Parser (FEP) dar, welcher nicht Text erkennt, sondern Layoutstrukturen, welche im nächsten Schritt die Texterkennung erleichtern könnte, wie beispielsweise eine fortschrittlichere Erkennung der Seitenzahlen und des Druckbereichs.

Das Ziel von IMPACT ist es, eine Interoperabilität aller relevanten Tools zu erzielen.

————————————————————————————

Sven Schlarb of the Austrian National Library (ONB) gave an overview over the technicals tools developed in IMPACT, and their intended collaboration. Historical texts present a number of challenges for automated text recognition, e.g. old typefaces, out-dated words and spelling, complex layouts, speckled, curved and cracked paper, to name only a few. IMPACT tries to develop solutions for all of these problems. This includes tools to straighten out curves and cracks of pages in the digital image, and improved binarisation and special historical dictinaries to aid the OCR. Another example would be the Functional Extension Parser (FEP) that recognises layout structures to ease text recognition by detecting page numbers and similar layout elements. All IMPACT tools should be fully interoperable in the end.

Mark-Oliver Fischer (BSB)