Virtueller Workshop Korpusbildung

Die DHd-AG Zeitungen & Zeitschriften bietet am 11. und 12. November 2021 jeweils von 9:00-13:00 Uhr einen virtuellen Workshop an, um anhand digitaler Zeitungs- und Zeitschriftenbestände zu zeigen, wie die für viele Forschende notwendige, individuelle Korpusbildung in Zeitungsportalen selbst sowie mittels NLP-Methoden unterstützt werden kann.

Geisteswissenschaftliche Forschung basiert häufig auf themenspezifischen Forschungsfragen, weshalb die Korpusbildung einen wesentlichen Aspekt in der Arbeit mit digitalen Quellen einnimmt. Solche Korpora müssen jedoch nicht selten in zeitaufwändigen und komplexen Prozessen erstellt werden, weil Suchstrategien nicht ausreichen oder weil fehlende Layout- Segmentierung den Zugriff erschwert. Insbesondere bei retro-digitalisierten Zeitungen hängt die Korpusbildung stark von der Qualität der Digitalisate (OCR und Artikelsegmentierung) ab.

Im Workshop “Korpusbildung” werden wir deshalb auf Methoden und Tools eingehen, die eine Korpusbildung erleichtern.

Am 11. November geben wir:

Am 12. November konzentrieren wir uns auf NLP-Methoden, die die Korpusbildung mit aus den Zeitungsportalen extrahierten Daten unterstützen. Mit Hilfe von Jupyter Notebooks, die via myBinder eine interaktive Arbeitsumgebung zulassen, werden gemeinsam verschiedene Methoden ausprobiert. Hierbei setzen wir uns mit folgenden Fragen auseinander:

Programmierkenntnisse sind nicht erforderlich, ein grundsätzliches Interesse daran jedoch hilfreich. Die Teilnehmerzahl ist auf 20 Personen limitiert.

Der Workshop wird geleitet von: Sarah Oberbichler und Eva Pfanzelter (beide Institut für Zeitgeschichte, Universität Innsbruck).

Anmeldungen bitte per e-mail an die Convenor der AG Nanette Rißler-Pipka (rissler-pipka@sub.uni-goettingen.de) und Torsten Roeder (torsten.roeder@leopoldina.org) bis spätestens zum 20. Oktober 2021. Die Plätze werden in der Reihenfolge des Anmeldungseingangs vergeben. Die Zugangsdaten zum virtuellen Raum sowie weitere praktische Informationen werden kurz vor dem Workshop an die Teilnehmer*innen verteilt.