Spezial-Lexika zur Erschließung historischer Dokumente

Impact CoCEvents

Annette Gotscharek of the Centre for Information and Language  Processing of the Ludwig-Maximilians-University talked about special dictionaries and their impact on OCR. Spelling variations and no longer used words are a big problem for OCR, making a lexicon adapted to historical texts a necessity for the creation of correct full text.

http://vimeo.com/32259386

[slideshare id=9697024&doc=05gotscharekspezial-lexika-111014091929-phpapp01]

Annette Gotscharek vom Centrum für Informations- und Sprachverarbeitung (CIS) der Ludwig-Maximilians-Universität berichtete über Spezial-Lexika und ihre Auswirkungen auf die OCR-Erkennung.

Problematisch dabei sind unter anderem historische Schreibvarianten und Differenzen zwischen historischem und zeitgenössischem Wortschatz und Wortformen. Dabei ist zu unterscheiden zwischen den  spezifischen Anforderungen eines Lexikons für die OCR-Erkennung und eines Lexikons für die Suche im Volltext.

Anschließend wurden die im CIS entwickelten Korpora und Lexika präsentiert.

Das Diachrone Groundtruth-Korpus, aus verschieden Prosatexten aus den Jahren 1500 bis 1950 zusammengestellt, zeigte eine deutliche Lücke im 16. und 17. Jahrhundert, welche in einer Kooperation mit Dokumenten aus der Bayerischen Staatsbibliothek geschlossen werden konnte. Dadurch konnten regelmäßig auftretende Ersetzungsmuster bestimmt werden, (bspw. heute ‘t’, historisch oft ‘th’; heute ‘ei’, historisch oft ‘ey’) wodurch auf Basis heutiger Wörterbücher ein Hypothetisches Lexikon erstellt wurde, das also aus modernen Wörtern automatisch mögliche historische Varianten generieren kann. Dieses Vorgehen ist aber nicht perfekt,  vor allem für die Zeit vor 1750 ist ein manuell verifiziertes Lexikon nötig, um gute Ergebnisse zu erzielen.  Die Arbeit daran schreitet gut voran, durch die im CIS gesammelten Erkenntnisse konnten Projektpartner historische Lexika auch für slowenisch und bulgarisch erstellen.

Zum Abschluss ging Frau Gotscharek auf ein Lexikon für Named Entities, also Eigennamen (von Orten, Personen, Organisationen, …) ein. Diese sind einerseits für die OCR eine große Herausforderung, andererseits für die Recherche oft besonders relevant.

RM (BSB); Mark-Oliver Fischer (BSB)