Summer School “Digitale Methoden der Zeitungsanalyse, 2. Auflage”

Datum: 4.–5. September 2025
Veranstaltungsort: Universität Würzburg (Präsenzveranstaltung), Zentrum für Philologie und Digitalität
Organisation: Kooperation zwischen AG “Zeitungen & Zeitschriften” des Verbands “Digital Humanities im deutschsprachigen Raum” & Universität Würzburg

Organisationsteam: Sarah Oberbichler, Johanna Störiko, Nina C. Rastinger, Torsten Roeder (Local Organizer)

Anmeldung hier (Deadline: 20. Juli 2025): https://forms.gle/QZ1KimECJJDN2XhP7

Programm der Summer School

Donnerstag, 28.08.2025 – Online-Vorbereitung auf Summer School

10:00–12:00 – Einführung Jupyter Notebooks
Sarah Oberbichler

Jupyter Notebooks bieten Geisteswissenschaftler*innen neue Möglichkeiten für digitale Forschungsmethoden und die transparente Dokumentation von Analyseprozessen. Diese Online-Einführung vermittelt spezifisch auf geisteswissenschaftliche Fragestellungen zugeschnittene Kompetenzen im Umgang mit Jupyter Notebooks. Die Einführung nutzt Google Colab als browserbasierte, installationsfreie Plattform und führt systematisch in die Benutzeroberfläche ein. Teilnehmende lernen den Umgang mit Code-Zellen, Markdown-Zellen und die Integration von Text, Code und Visualisierungen in einem gemeinsamen Dokument kennen und praktische Übungen mit geisteswissenschaftlichen Anwendungsszenarien. Die Einführung richtet sich an Teilnehmende mit und ohne Programmiererfahrung.

Sarah Oberbichler ist wissenschaftliche Mitarbeiterin am DH Lab des Leibniz-Instituts für Europäische Geschichte in Mainz, mit interdisziplinärer Expertise in den Bereichen historische Migrationsforschung, Umweltstudien, transnationale Medienstudien, NLP und kritische KI-Forschung. In ihrem aktuellen Habilitationsprojekt untersucht sie transnationale Nachrichtenströme über Sprach- und Landesgrenzen hinweg anhand von Fallstudien zu Naturkatastrophen und Migration. Oberbichler ist Autorin zweier Monographien und ihre Arbeit hat internationale Anerkennung erhalten.

Mittwoch, 03.09.2025

19:00 – Gemeinsames Abendessen (Selbstzahlerbasis)

Donnerstag, 04.09.2025

09:00–09:30 – Willkommen und Kennenlernen
Torsten Roeder, Sarah Oberbichler, Johanna Störiko, Nina C. Rastinger

09:30–10:30 – digiPress - Das Zeitungsportal der Bayerischen Staatsbibliothek
Ortwin Guhling

Mit „digiPress“ verfügt die Bayerische Staatsbibliothek (BSB) über ein eigenes Portal für ihren digitalisierten historischen Zeitungsbestand. Ausgehend von einer kurzen Vorstellung der umfangreichen Zeitungssammlung der BSB wird zunächst das inhaltliche Konzept der Zeitungsdigitalisierung an der Bayerischen Staatsbibliothek vorgestellt. Daraufhin wird „digiPress“ mit seinem Funktionsumfang und verschiedenen Sucheinstiegsmöglichkeiten anhand von Beispielen präsentiert. Dabei werden Besonderheiten der Online-Präsentation und -Erschließung von Zeitungen erläutert. In diesem Zusammenhang sollen sowohl konkrete Nutzungsmöglichkeiten als auch die Grenzen der Auswertungsoptionen aufgezeigt werden. Beleuchtet werden in diesem Zusammenhang z. B. Qualitätsaspekte von Volltextdaten wie auch Ansätze zur Tiefenerschließung von Zeitungsinhalten, etwa im Hinblick auf behandelte Personen, Orte oder Themen.

Ortwin Guhling studierte in Freiburg und Würzburg Biologie. Nach Promotion und Bibliotheksreferendariat ist er seit 2007 an der Bayerischen Staatsbibliothek als Erwerbungsreferent für Zeitschriften und elektronische Medien tätig. Mittlerweile leitet er das Referat Periodika, in dem auch die Zeitungssammlung der Bayerischen Staatsbibliothek betreut wird, in der Abteilung Bestandsentwicklung und Erschließung 2.

10:30–11:00 – Kaffeepause

11:00–12:30 – Metadatenanalyse am Beispiel von digiPress & Zeitschriftendatenbank
Nina C. Rastinger

Anhand des Portals digiPress soll in der Hands-On-Session exemplarisch gezeigt werden, wie Webcrawler zum Sammeln von Metadaten eingesetzt werden können, wenn für Zeitungssammlungen (noch) keine APIs oder Sammeldownloads zur Verfügung stehen. Genutzt werden hierfür über ein Jupyter Notebook die Python-Bibliotheken BeautifulSoup, requests und pandas. Aufbauend auf den gesammelten Metadaten soll dann gezeigt werden, wie mithilfe von Visualisierungen ein Überblick über große Datensätze gewonnen werden kann, indem zeitliche oder räumliche Muster sichtbar gemacht werden. Zudem wird ein wichtiger Referenzpunkt für die Arbeit mit historischen Periodika vorgestellt, nämlich die von der Staatsbibliothek zu Berlin und der Deutschen Nationalbibliothek bereitgestellte Zeitschriftendatenbank (ZDB). Über die dort verfügbaren Schnittstellen können anhand der in digiPress und anderen Portalen enthaltenen Identifier (ZDB-IDs) automatisiert zusätzliche Metadaten (z.B. Erscheinungsform, Vorgänger, Nachfolger, Beilagen) abgefragt werden. Programmierkenntnisse (Python) können für die Einheit hilfreich sein, sind aber keine Voraussetzung.

Nina C. Rastinger hat Deutsche Philologie und Psychologie studiert und ist DOC-Stipendiatin am Austrian Centre for Digital Humanities Cultural Heritage, wo sie bereits an verschiedenen Forschungs- und Infrastrukturprojekten beteiligt war und der Abteilung “Literary & Print Culture Studies” angehört. Aktuell widmet sie sich in ihrem Doktoratsprojekt der Identifikation und Analyse von periodisch publizierten Listen in Zeitungen und Intelligenzblättern zwischen 1600 und 1850. Ebenfalls zu ihren Interessensbereichen zählen u.a. frühneuzeitliche Gebrauchstexte, NLP und LLMs.

12:30–14:00 – Mittagspause

14:00–17:30 – Digitales Arbeiten mit Bildern in historischen Zeitungen und Zeitschriften
Johanna Störiko

In dieser Einheit lernen die Teilnehmenden, automatisiert auf digitale Bildersammlungen mit IIIF-Schnittstellen zuzugreifen und mithilfe von Image Embeddings explorative Untersuchungen auf den Bildern durchzuführen. Als Beispiel verwenden wir natürlich Illustrationen und Photographien aus Zeitungen und Zeitschriften. Dabei gliedert sich die Einheit in zwei Teile: Die erste Hälfte beginnt mit einer Einführung in den Aufbau von IIIF-Schnittstellen. Es wird vermittelt, wie mithilfe der Programmiersprache Python automatisiert eine Linkliste zum Herunterladen der Bilder erstellt werden kann. Hierfür stehen vorbereitete Jupyter-Notebooks zur Verfügung, mit denen die Bilder auf die eigene Festplatte heruntergeladen werden können. Im zweiten Teil widmen wir uns der Frage, wie wir diese Bilder mit neuronalen Netzen untersuchen können. Es wird gezeigt, wie vortrainierte Netze zur Erfüllung verschiedener Aufgaben mit wenigen Zeilen Code in das eigene Projekt eingebunden werden können. Mit diesen Netzen können wir in der zuvor erstellten Bildersammlung zum Beispiel Bildinhalte erkennen, oder die Haltung von Menschen untersuchen. Den Abschluss bildet eine Diskussion darüber, welche Möglichkeiten sich durch die Nutzung dieses Ansatzes ergeben und wie diese oder ähnliche Technologien auch in den Projekten der Teilnehmenden eingesetzt werden können. Vorkenntnisse im Programmieren sind für diesen Teil des Workshops nützlich, aber nicht unbedingt notwendig. Die Teilnehmenden sollten ein Tool wie Visual Studio Code installieren, mit dem Jupyter Notebooks bequem ausgeführt werden können. Alternativ kann dafür auch Google Colab genutzt werden, dann wird hier ein Account benötigt.

Johanna Störiko ist studierte Informatikerin mit Schwerpunkt Digital Humanities. Im Rahmen ihres Dissertationsprojekts zur digitalen Edition von Werbeanzeigen der Jahrhundertwende beschäftigt sie sich mit Modellen der Computer Vison, Vektordatenbanken und der Entwicklung von nützlichen Tools für die historische Arbeit mit digitalisierten Bildern. Seit 2025 arbeitet Johanna Störiko im Projekt Germania Sacra der Niedersächsischen Akademie der Wissenschaften zu Göttingen und widmet sich dort ihrem zweiten Interessensschwerpunkt - dem Semantic Web.

17:30–18:00 – Pause

18:00–19:30 – Panel “Text & Bild in der Zeitschriftenkultur des 20. Jahrhundert”

In der Zeitschriftenforschung fällt dem Text-Bild-Verhältnis oft eine besondere Rolle zu. Aktuelle Projekte untersuchen dies u.a. anhand verschiedener Ausprägungen der Zeitschriftenkultur des 20. Jahrhundert. Das Panel stellt drei Projekte aus diesem Bereich vor, die im Umfeld des Zentrums für Philologie und Digitalität entstanden sind.

(1) FotogedichteTomash Shtohryn

Wenn man eine geisteswissenschaftliche Datenbank veröffentlichen möchte, wird oft die MediaWiki-Software als eine der bestmöglichen Lösungen für diesen Zweck betrachtet. Zusammen mit der Erweiterung “Semantic MediaWiki” und einer Reihe weiterer Plugins ist MediaWiki de facto Standard für Projekte, in deren Beschreibungen die Begriffe “Datenbank” oder “Digital Humanities” vorkommen. Doch ist dieses ungeschriebene Gesetz noch zeitgemäß? “Fotolyrik in illustrierten Zeitschriften zwischen 1895 und 1945” ist das neue, am Lehrstuhl für neuere deutsche Literaturgeschichte angesiedelte Projekt, dessen Ziel in der Erschließung von den mit einem Foto versehenen Gedichten in deutschsprachigen Periodika besteht. Mithilfe einer Online-Datenbank erhalten die Nutzerinnen und Nutzer die Möglichkeit, die Metadaten zu durchsuchen und sich die Digitalisate an “einem Ort” anzuschauen. Insbesondere vor dem Hintergrund, dass je nach Projekt die MediaWiki-Software an ihre Grenzen stoßen kann, eröffnet sich ein gewisser Spielraum für die Diskussion, ob der Einsatz von Semantic MediaWiki in diesem Fall sinnvoll ist – oder ob es doch zielführender wäre, eine Online-Ressource zu entwickeln, die aus einem modernen und benutzerfreundlichen Frontend, dem Backend und einer gut dokumentierten API besteht.

Tomash Shtohryn hat sein Studium in Fächern Political and Social Studies und Digital Humanities als Nebenfach absolviert. Während des Masterstudiums machte er die Digital Humanities zu seinem Hauptfach und ist aktuell wissenschaftlicher Mitarbeiter am Zentrum für Philologie und Digitalität an der Universität Würzburg. Hier ist er an mehreren Forschungsprojekten beteiligt, deren Schwerpunkt auf der Erstellung von Digitalen Editionen oder vollwertigen interaktiven Ressourcen auf Basis einer Datenbank liegt.

(2) Das Neue UniversumJohannes Leitgeb

Das Jahrbuch Das Neue Universum (DNU) ist ein seltener Fall historischer Kontinuität: Seit der ersten Publikation im Jahr 1880 erscheint die Reihe bis heute fortlaufend und versammelt faktuale und fiktionale Texte zum Themenfeld Technik und Technologie. Wissenschaftliche Beachtung hat das Jahrbuch bisher jedoch kaum erfahren; auch eine erschließende Digitalisierung der über 120 Bände hat noch nicht stattgefunden. Der Fokus dieses Vortrags liegt einerseits auf der Präsentation der Publikationsgeschichte des DNU und andererseits auf der Analyse ausgewählter Texte aus dem Themenfeld der ab 1950 diskutierten digitalen Technologie. Dabei werden die für das Jahrbuch charakteristischen Techniken ermittelt, in denen neuralgische Schnittpunkte zwischen Faktualität und Fiktionalität sowie zwischen Text und Bild erkennbar sind.

Johannes Leitgeb hat Germanistik und Digital Humanities in Würzburg studiert und ist dort aktuell als wissenschaftlicher Mitarbeiter am Lehrstuhl für Neuere deutsche Literaturgeschichte tätig. In seiner Forschung beschäftigt er sich insbesondere mit der Schnittstelle zwischen Literatur und Technik. So hat er in seiner MA-Thesis Das Neue Universum hinsichtlich der Darstellung von Computern, Robotern und Künstlicher Intelligenz untersucht.

(3) Longplay: The Last NinjaJulia Boden

Computerzeitschriften der 1980er Jahre enthielten neben vielen typischen Spiele-Rezensionen auch sogenannte Longplays. Darin beschrieben Spieler ihre Erlebnisse, wenn sie ein Spiel von Anfang bis Ende “durchspielen”. Anders als bei auf Effizienz optimierten Walkthroughs fließen auch herbe Fehlschläge und strapazierte Frustrationsgrenzen in die Beschreibungen wortreich ein. Im weit verbreiteten 64’er Magazin (1984–1999) wurden über 50 Longplays veröffentlicht, die wie kaum eine andere Quelle Einblicke in das zeitgenössische Spielerlebnis geben. Am Beispiel des Longplays zu “The Last Ninja” (System 3, 1987) wird ausgelotet, inwieweit eine digitale Edition der Longplays mit Videos und Emulationen der beschriebenen Spielsituationen verbunden werden kann.

Julia Boden studiert Digital Humanities und Political and Social Studies in Würzburg und befasst sich in ihrer Bachelor-Thesis mit einer multimodalen digitalen Edition des “The Last Ninja”-Longplays. In einem Digital-Humanities-Projekt befasste sie sich mit der typographischen digitalen Edition des Diskettenmagazins “X-Dome”.

Freitag, 05.09.2025

09:00–12:30 – OCR4all
Florian Langhanki

In diesem Workshop wird die Software LAREX vorgestellt. Dieses Tool liefert den Nutzenden eine grafische Oberfläche zur Annotation von Digitalisaten. Durch die Segmentierung einer Bildseite in verschiedene Regionentypen, deren Lesereihenfolge, Zeilen und ggfs. auch die Transkription von Text lassen sich valide PAGE XMLs erstellen, wodurch eine Weiterverarbeitung im Rahmen von Editionsvorhaben oder quantitativer Analysen ermöglicht wird. Der Workshop wird allen Teilnehmenden die Gelegenheit geben, selbst mit LAREX zu arbeiten und, wenn gewünscht, ihre selbst produzierten Ergebnisse mit nach Hause zu nehmen. Gerne können auch eigene Bildbeispiele mitgebracht werden. Diese sollten bitte eine Woche vor dem Workshop geschickt werden.

Florian Langhanki ist studierter Germanist mit einem Schwerpunkt in der Mediävistik. Seit 2021 arbeitet er an der Forschungsstelle: DACHS im Zentrum für Philologie und Digitalität der Universität Würzburg und befasst sich hier vor allem mit der digitalen Texterschließung; mit dem gesamten Workflow vom digitalen Bild bis zum maschinenverarbeitbaren Text.

12:30–14:00 – Mittagspause

14:00–17:30 – Introducing the Impresso Datalab for the joint exploration and analysis of multilingual historical newspaper and radio collections
Marten Düring

The workshop is organised by the interdisciplinary research project Impresso Media Monitoring of the Past — Beyond Borders, which leverages an unprecedented corpus of newspaper and radio archives and uses machine learning to pursue a paradigm shift in the processing, semantic enrichment, representation, exploration and study of historical media across modalities, time, languages, and national borders. We will introduce the Impresso Datalab, which in conjunction with the Web App offers access to a growing Western European newspaper and radio corpus. It has two primary purposes: First, to complement the inherently limited analytical capabilities of the Impresso web app by enabling flexible computational analysis via API, a dedicated Python library and an environment of interactive Jupyter notebooks. Second, to respond to user needs to freely link and analyse external research data to Impresso using a variety of semantic enrichments such as named entities or topics. To this end it offers access to a dedicated API that also enables document annotation services. All this with the goal to establish a transparent and versatile framework for data-driven comparative analysis of internal and research-specific external documents. During the the workshop we will offer a combination of demos, free exploration and opportunities to discuss experiences, real-world needs and novel opportunities among participants.

Marten Düring ist promovierter Historiker und arbeitet als Assistant Professor in Digital History am Luxembourg Centre for Contemporary and Digital History (C2DH). Er ist Gründungsmitglied der Historical Network Research Community und Mitherausgeber des Journal of Historical Network Research. Seit 2016 leitet er als Co-Direktor das interdisziplinäre Impresso-Projekt, das an der Schnittstelle von NLP, Design und Geschichtsforschung an neuen Methoden für die datengetriebene Erforschung historischer Zeitungs- und Radioquellen arbeitet.

17:30–18:00 – Pause

18:00–19:30 – Bring your Project

Zum Abschluss des Workshops steht den Teilnehmenden Zeit zur Vorstellung eigener Projekte und Projektideen zur Verfügung, die in großer und kleiner Runde diskutiert werden können.

19:30 – Informeller Ausklang im Retro Computing Lab

Das Retro Computing Lab ist eine betriebsbereite Sammlung von historischen Computern zum Einsatz in Forschung und Lehre. Auf diesen Computern wurden bereits in den 1980er Jahren elektronische Zeitschriften produziert, die Texte und Bilder, aber auch Musik und Software enthielten. Bis in die 1990er Jahre wurden sie nicht etwa über das Netz, sondern auf Floppy Disks verbreitet. Ihr Erschließungszustand ist prekär, da digitale Medien lange nicht für wissenschaftliche Zwecke gesammelt und archiviert wurden. Besonders die multimodalen Formate stellen eine Herausforderung für die Erhaltung dar, denn Originalgeräte sind immer seltener vorhanden. Im Retro Computing Lab wird eine Auswahl von Magazinen wird zur lesenden und vor allem spielenden “Benutzung” angeboten.