Fallstudie III: Sicht der Endnutzer: Was tun mit den Ergebnissen der OCR?

Impact CoCDiscussions

Ralf  Stockmann von der Staats- und Universitätsbibliothek Göttingen ging nach einer kurzen Vorstellung des Göttinger Digitalisierungszentrums von der “perfekten Welt” aus, in der es keine Probleme mit OCR gibt, sondern nur die Frage zu beantworten ist, wie und wozu man ihre Ergebnisse am Besten nutzt.

[slideshare id=3344329&doc=stockmanncasestudy3-100305090521-phpapp02]

http://www.vimeo.com/9914090

Wer sind eigentlich die Endnutzer von digitalen Angeboten mit OCR? Natürlich gehören dazu Wissenschaftler, Studierende und interessierte Laien. Aber auch Bibliothekare können davon profitieren, wenn man OCR als Hilfsmittel bei der Erschließung einsetzt. Und: Google und andere Suchmaschinen können Volltexte indizieren und so neue Nutzer für die digitalen Angebote der Bibliotheken gewinnen.

Dies hängt aber auch davon ab, wie die Volltexte präsentiert werden. Werden sie überhaupt nicht gezeigt und dienen nur der Erstellung eines Suchindexes, oder sind sie für den Nutzer voll verfügbar, parallel zu den Digitalen Bildern – oder sogar stattdessen. Damit zusammen hängt auch die Frage, in welchen Formaten die Volltexte vorliegen. Werden nur die einzelnen Wörter im Suchindex aufgehoben, ohne irgendwelchen textlichen Zusammenhang, werden Wortkoordinaten gespeichert, oder der Text im Zusammenhang einer ganzen Seite, sogar des  ganzen Dokumentes? Dabei gilt, Informationen, die man dem Nutzer nicht bietet, kann dieser auch nicht wieder herstellen.

Vier Gruppen der Nutzung von Texterkennung: ‘klassische’ Suche; Hilfsmittel bei der Generierung von Metadaten; textübergreifende semantische Analysen; konkrete Textarbeit in “virtuelle Forschungsumgebungen”. Die erste Gruppe wurde im Laufe des Tages hauptsächlich besprochen, daher sollen nun Beispiele für die anderen drei folgen. OCR bei der Metadatengenerierung: Beispielsweise lassen sich Volltexte nutzen, um die Erschließung von Artikeln in Zeitschriftenbänden deutlich beschleunigen, da Titel etc. nicht mehr abgetippt, sondern aus Volltexten übernommen werden können. So konnte für ein Göttinger Zeitschriftenprojekt die Erfassungszeit pro Band um ca. 30 Prozent verkürzt werden. Semantische Analyse: Durch die Auszeichnung von Personen, Themen und Themenzusammenhängen lassen sich textübergreifende Beziehungen herstellen. Möglicherweise ließe sich so eine Erschließungsqualität erreichen, die mit der manuellen Strukturdatengenerierung mithalten kann, endgültige Ergebnisse dazu liegen aber noch nicht vor. Semantische Analysen lassen sich aber auch visualisieren, beispielsweise wird im Rahmen von Europeana an einer zeitlichen wie räumlichen Visualisierung von Informationen. Im Beispiel wurden Publikationen von und über Goethe und Schiller in Europa visualisiert (siehe Präsentation). “Virtuelle Forschungsumgebungen”: Hier können Volltexte als Grundlage von bspw. modernen kollaborativen Editionsprojekten dienen.

Zusammenfassend lasse sich sagen, dass die beste Texterkennung nichts nutzt, wenn die Endnutzer nicht von den Ergebnissen profitieren. Dabei ist gar nicht vorhersehbar, welche sinnvollen Einsatzmöglichkeiten sich im Laufe der Zeit entwickeln werden, am wichtigsten ist daher eine möglichst breite Bereitstellung der Volltexte in möglichst vielen Formaten / mit möglichst vielen Schnittstellen.

———————————————————————————————————

Ralf Stockmann of the Goettingen State and University Library talked about a “perfect world” free from problems regarding OCR, where the only question is how best to use its outcomes. This is of course related to the question: who uses digital collections with OCR? Besides researchers, students and interested laypersons, there are the less obvious user groups of librarians, if OCR is used to help cataloguing, and search engines like Google who can bring new users to the libraries, if the digitised full text is part of their index. However, this depends upon how the full text is presented, are they totally hidden and only used to feed a search in the digital collections, are they presented in full and parallel to (or instead of) the digitised images, or something in between?

Regarding the earlier question on how best to use OCR outcome,  there are four general groups of usage: the “standard” search in a book or collection is the most obvious and most widely used group.  A less widespread, but very interesting case is using OCR to help create metadata for e.g. library catalaguing. Using OCR instead of keying the titles of articles from a journal helped reduce cataloguing time by 30%, at one digital journals project in Goettingen.  Another example for innovative uses of OCR was semantical analysis, that is the generation of inter-textual relations (names, places, topics, …) via OCR. The fourth case presented were “virtual research environments”, where full texts could be helpful for collaborative edition projects.

The bottom line was that it’s impossible to know what innovative use cases will be developed in the future, so most important for digitising institutions should be to present full texts with as few restrictions as possible, to not hinder innovation.

Mark-Oliver Fischer (BSB)