AG-interner Workshop: OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften

Datum und Ort 11.11.2019, UB der Goethe-Universität Frankfurt am Main, Sitzungszimmer im 1. OG

Die AG Zeitungen & Zeitschriften hat seit ihrem jungen Bestehen (DHd2019) den Austausch über Herausforderungen und Lösungen bezüglich OCR für den genannten Gegenstand als Bedarf identifiziert. Auf dem geplanten Workshop sollen sich Projekte (aus Bibliotheken, Archiven, Wissenschaft), die bereits mit OCR für Zeitungen & Zeitschriften Erfahrungen gesammelt haben, austauschen und voneinander lernen. Doch auch diejenigen, die bisher eher Nutzer*innen von Volltexten aus Zeitungen & Zeitschriften waren, profitieren von dieser Diskussion, um die dahinterliegenden besonderen Herausforderung für diese Medien zu erkennen und einschätzen zu können, welche Anforderungen sie an die Texterkennung stellen können. Außerdem gilt es, aus dieser Nutzerperspektive Bedarfe zu formulieren. Der Schwerpunkt des Workshops liegt also auf dem gegenseitigen Austausch, es soll dagegen nicht um konkrete Projekt-Beratungen gehen (wobei diese selbstverständlich im Nachgang unter einzelnen Workshop-Teilnehmer*innen weiterverfolgt werden können).

Agenda

12:00–12:30 gemeinsames Lunch

12:30–13:00 Begrüßung und Vorstellungsrunde

13:00-13:30 Ina Serif (Uni Basel): „Bag of words vs. Textsegmentierung auf Artikelebene“
Layouterkennung mit Transkribus/dhSegment für (vor)moderne Zeitungen als Grundlage für die Texterkennung. Anregung einer Diskussion zum künftigen Kostenmodell von Transkribus

13:30–14:00 Anja Piller (Gast UB Halle): „Erfahrungsbericht zum Zeitungsprojekt und Fraktur-OCR mit Tesseract“

14:00–14:30 Dario Kampkaspar: „Überblick über den automatisierten Workflow zur Layout- und Texterkennung im Wien[n]erischen Diarium (ACDH Wien) sowie im Darmstädter Tagblatt” (ULB Darmstadt)
Vergleich der Erkennungsergebnisse des aktuellen Diarium-Modells mit anderen Software-Lösungen. Überlegungen zum automatisierten Double-Keying und zu Möglichkeiten der Präsentation von Zeitungen und zu Korrektur- und Annotationsmöglichkeiten.

14:30–15:00 Simon Clematide (Projekt impresso/Uni Zürich): “Bericht über das Training und die Transferierbarkeit des deutschen Frakturschriftmodells innerhalb von Transkribus“
Erfahrung zu Frontseiten der NZZ über 150 Jahren; außerdem über weitere Experimente mit anderen HTR/OCR-Engines mit unserem Goldstandard. Transferierbarkeit wurde auf 2 anderen Zeitungen gemessen und mit ABBYY FineReader verglichen. Kurzer Überblick zu aktuellen semisupervisierten Ansätzen zu “Normalisierung” von historischen/OCR-Textbeständen, mit denen wir an der UZH experimentieren.

15:00–15:30 Pause

15:30–16:00 Clemens Neudecker (SBB Berlin): „Überblick zum DFG-Projekt OCR-D“ http://ocr-d.de/
Zu den identifizierten Bedarfen, Bemühungen zu Standardisierung, dort verfügbaren Software-Komponenten für den kompletten OCR-Workflow (Bildoptimierung bis Nachkorrektur) sowie (Ground Truth) Daten und Modellen. Erste Ergebnisse zur erwartbaren Qualität, Verbesserungspotenzialen sowie Community-Aufgaben und nächsten Schritten. Synergien mit KI-Projekt QURATOR (OCR, Layouterkennung, NER) an der SBB.

16:00–16:30 Matthias Arnold (Uni Heidelberg): „Wege zur Erschließung der frühen chinesischen Presse“
Kurzer Bericht zur Erschließung chinesischer Zeitungen der Republikzeit (ca. 1.H 20.Jh). Vorstellung der wesentlichen Herausforderungen, insbesondere optical layout recognition (enger komplexer Satz). Annäherung an Segmentierung über crowdsourcing, inhaltliche Erschließung auf Item-Ebene (Artikel, Bilder, Werbung) und manuelles double keying.

16:30–17:00 Beitrag entfällt - evtl. Ersatz oder früher in Diskussionsrunde

17:00–18:00 Diskussionsrunde