Anmerkung: Das Protokoll gibt die Diskussion nicht wörtlich, sondern nur sinngemäß wieder. Sven Schlarb konnte leider nicht an der Abschlussdiskussion teilnehmen.
Frage von Ralf Stockmann: 300 dpi bitonal sind für leicht zu erkennendes OCR-Material ausreichend, im Zweifel sind dafür aber 400 dpi Farbe zu empfehlen. In Deutschland verlangen die Richtlinien der Deutschen Forschungsgemeinschaft jedoch andere Werte (600 dpi bitonal). Was ist also zu empfehlen?
Antwort von Günter Mühlberger: Die langfristige Lösung für dieses Problem ist dynamische Binarisierung im Rahmen der OCR. Damit erübrigt sich dann das Problem. Um auf der sicheren Seite zu sein, sollte in bestmöglicher Qualität gescannt werden. Ergänzung: Nach Tests der British Library auf Basis von guten Mikrofilmvorlagen waren keine Qualitätsunterschiede zwischen OCR vom Original und OCR vom Film festzustellen. Dies gilt aber natürlich nicht für die vielen vorhandenen alten Mikrofilme in schlechter Qualität.
Ergänzende Frage zur Auflösung aus dem Publikum: Bei einem Digitalisierungsprojekt sind bei 300 dpi viele übergesetzte Zeichen (Ü-Punkte, e über u etc.) kaum mehr erkennbar. Wie wirkt sich das auf die OCR-Qualität aus?
Antwort von Michael Fuchs und Günter Mühlberger: Im Reprobereich wird daher sogar mit 1200 dpi gescannt. Nach eigenen Tests erzielen Bilder mit 300 dpi aber durchaus gute Ergebnisse bis runter zu Vierpunktschriften.
Frage aus dem Publikum: Inwieweit beeinflussen JPG-Artefakte die OCR-Qualität? Sind Tiff-Dateien zu bevorzugen?
Antwort von Günter Mühlberger: OCR-technisch gesehen gibt es keinen Unterschied zwischen guten JPG- und Tiff-Dateien.
Frage aus dem Publikum: Wie werden Bilddaten am besten gespeichert (Stichwort Langzeitarchivierung)?
Antwort von Karl Märker: In der Bayerischen Staatsbibliothek werden die Dateien unkomprimiert bzw. verlustfrei abgespeichert.
Frage aus dem Publikum: Wie sieht das ‘Endprodukt’ von IMPACT aus?
Antwort: Es wird derzeit an einem Entwurf für ein Centre of Competence (Website mit Helpdesk, Dokumenten und Werkzeugen für Entscheidungsträger sowie Demonstratoren einiger IMPACT-Tools) gearbeitet, das auch über die Projektlaufzeit hinaus Bestand haben soll. Technische Tools: Es wird am Ende kein fertiges Produkt geben, denn IMPACT ist ein Forschungsprojekt. Einige Entwicklungen aus IMPACT werden aber nach Projektende in Produkte Eingang finden, andere werden auf dem Status von Prototypen bleiben und nicht weiterentwickelt werden.
Frage aus dem Publikum: Für kleine Institutionen sind Digitalisierungsprojekte oftmals nur schwer zu bewerkstelligen. Könnten diese nicht beispielsweise in Form einer Liste von Dienstleistern unterstützt werden?
Antwort von Fedor Bochow und Anke Meyer: Genau solche Hilfsmittel sollen über das Centre of Competence bzw. die IMPACT-Website angeboten werden. Es wird auf der IMPACT-Website zahlreiche Werkzeuge geben, die Entscheidungsträgern wertvolle Hilfestellungen bieten. Beispielsweise werden Dokumente bereitgestellt, die einen bei der Entscheidung unterstützen, ob man besser selbst digitalisiert oder aber Dienstleister damit beauftragt.
Frage aus dem Publikum: Gab es nicht die Überlegung, über das Centre of Competence die Zertifizierung von Dienstleistern anzubieten?
Antwort von Fedor Bochow: Ja, das ist richtig. Dies wurde bereits während der IMPACT-Konferenz 2009 in Den Haag thematisiert und wird bei der derzeitigen Planung berücksichtigt.
Frage aus dem Publikum: Wie sieht es mit der Finanzierung und Weiterführung des Centre of Competence nach Projektende aus?
Antwort von Fedor Bochow: Wir arbeiten intensiv an einem Konzept, es gibt aber noch keine von allen abgesegnete Lösung.
Frage aus dem Publikum: Wird es Referenzdaten für Wissenschaftler geben, anhand derer beispielsweise die Leistungsfähigkeit von Software überprüft werden kann? Dies wäre äußerst wünschenswert.
Antwort von Fedor Bochow: Im Rahmen des Projekts wurde eine Liste mit den Anforderungen der beteiligten Bibliotheken an das Projekt erstellt. Darunter befindet sich auch bereits der ausdrückliche Wunsch nach öffentlich zugänglichen Referenzdaten, verbunden mit den entsprechenden Metadaten.
Frage aus dem Publikum: Kann man eigene Tools in das IMPACT-Framework integrieren?
Antwort von Günter Mühlberger: Dies wird möglich sein. Das Interoperability-Framework ist sehr offen konzipiert. Es wird allerdings nur möglich sein, eigene Komponenten testweise zu integrieren. Die Idealvorstellung ist, dass man durch das Framework Werbeaussagen kommerzieller Anbieter überprüfen kann, also beispielsweise: Was bedeutet der Einsatz von Scanner A im Vergleich zu Scanner B hinsichtlich der OCR-Ergebnisse?
Frage aus dem Publikum: Bisher ging es nur um OCR, was aber macht man mit Buchelementen, die nicht textuell sind, also mit Zeichnungen, Bildern etc.?
Antwort von Günter Mühlberger: Das ist ein wichtiges Thema, aber nicht Teil des IMPACT-Projektes. In zehn Jahren wird es dafür aber mit Sicherheit geeignete Software-Lösungen geben.
Schlusswort und Verabschiedung durch Fedor Bochow
Mark-Oliver Fischer (BSB)