AG-interner Workshop: OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften

Datum und Ort 11.11.2019, UB der Goethe-Universität Frankfurt am Main, Sitzungszimmer im 1. OG

Die AG Zeitungen & Zeitschriften hat seit ihrem jungen Bestehen (DHd2019) den Austausch über Herausforderungen und Lösungen bezüglich OCR für den genannten Gegenstand als Bedarf identifiziert. Auf dem geplanten Workshop sollen sich Projekte (aus Bibliotheken, Archiven, Wissenschaft), die bereits mit OCR für Zeitungen & Zeitschriften Erfahrungen gesammelt haben, austauschen und voneinander lernen. Doch auch diejenigen, die bisher eher Nutzer*innen von Volltexten aus Zeitungen & Zeitschriften waren, profitieren von dieser Diskussion, um die dahinterliegenden besonderen Herausforderung für diese Medien zu erkennen und einschätzen zu können, welche Anforderungen sie an die Texterkennung stellen können. Außerdem gilt es, aus dieser Nutzerperspektive Bedarfe zu formulieren. Der Schwerpunkt des Workshops liegt also auf dem gegenseitigen Austausch, es soll dagegen nicht um konkrete Projekt-Beratungen gehen (wobei diese selbstverständlich im Nachgang unter einzelnen Workshop-Teilnehmer*innen weiterverfolgt werden können).

Agenda

12:00–12:30 gemeinsames Lunch

12:30–13:00 Begrüßung und Vorstellungsrunde

13:00-13:30 Ina Serif (Uni Basel): „Bag of words vs. Textsegmentierung auf Artikelebene“
Layouterkennung mit Transkribus/dhSegment für (vor)moderne Zeitungen als Grundlage für die Texterkennung. Anregung einer Diskussion zum künftigen Kostenmodell von Transkribus

13:30–14:00 Anja Piller (Gast UB Halle): „Erfahrungsbericht zum Zeitungsprojekt und Fraktur-OCR mit Tesseract“

14:00–14:30 Diskussionsrunde

14:30–15:00 Simon Clematide (Projekt impresso/Uni Zürich): “Bericht über das Training und die Transferierbarkeit des deutschen Frakturschriftmodells innerhalb von Transkribus“
Erfahrung zu Frontseiten der NZZ über 150 Jahren; außerdem über weitere Experimente mit anderen HTR/OCR-Engines mit unserem Goldstandard. Transferierbarkeit wurde auf 2 anderen Zeitungen gemessen und mit ABBYY FineReader verglichen. Kurzer Überblick zu aktuellen semisupervisierten Ansätzen zu “Normalisierung” von historischen/OCR-Textbeständen, mit denen wir an der UZH experimentieren.

15:00–15:30 Pause

15:30–16:00 Clemens Neudecker (SBB Berlin): „Überblick zum DFG-Projekt OCR-D“
Überblick zu den in OCR-D identifizierten Bedarfen, erfolgten Standardisierungen, entwickelten Software-Komponenten für den OCR-Workflow sowie (Ground Truth) Daten und Modellen.

16:00–16:30 Matthias Arnold (Uni Heidelberg): „Wege zur Erschließung der frühen chinesischen Presse“
Kurzer Bericht zur Erschließung chinesischer Zeitungen der Republikzeit (ca. 1.H 20.Jh). Vorstellung der wesentlichen Herausforderungen, insbesondere optical layout recognition (enger komplexer Satz). Annäherung an Segmentierung über crowdsourcing, inhaltliche Erschließung auf Item-Ebene (Artikel, Bilder, Werbung) und manuelles double keying.

16:30–17:00 Beitrag entfällt - evtl. Ersatz oder früher in Diskussionsrunde

17:00–18:00 Diskussionsrunde

Postkorrektur der OCR-Texte
OLR, Artikelseparierung
Erwartungen an Format
Kostenplanung von OCR
Weitere Themen, die sich aus den Vorträgen ergeben
Planung der Ergebnispublikation des Workshops