Annotieren, Rechnen, Analysieren – Redewiedergabe als Anwendungsfall der Digital Humanities

Annelen Brunner, Stefan Engelberg, Fotis Jannidis, Ngoc Duyen Tanja Tu & Lukas Weimer
12.09.2018, 11.20 Uhr-11.40 Uhr, S06 XX, Symposium III

Die relativ neuen Methoden der Digital Humanities bieten einen alternativen Blick auf bekannte Phänomene und ermöglichen eine technische Bearbeitung von großen Textmengen, so dass Aussagen über zeitliche Veränderungen möglich werden. Unser Vortrag bietet einen Einblick in das laufende DFG-geförderte Projekt „Redewiedergabe“, wobei ein Schwerpunkt auf der gelungenen Kombination von klassisch linguistischer und computerlinguistischer Perspektive liegt.

Redewiedergabe – die Repräsentation von Kommunikation in einem anderen Kontext – ist ein Phänomen, das sowohl aus linguistischer als auch aus literaturwissenschaftlich-narratologischer Perspektive von Interesse ist. Die Art und Weise, wie die Figurenstimme in die Erzählung eingebunden ist, steht in engem Zusammenhang mit Erzählweise und -haltung, sowie der Konstruktion der erzählten Welt. Folglich wird dem Phänomen in der Erzählforschung viel Aufmerksamkeit geschenkt und es liegen zahlreiche systematische Analysen vor (z.B. Genette 1998, Martinez/Scheffel 2008). Zu Phänomenen wie der erlebten Rede, dem Bewusstseinsstrom usw. gibt es eine umfangreiche Spezialforschung (Überblick bei McHale 2014). Aus sprachwissenschaftlich-diachroner Perspektive ist Redewiedergabe vor allem in Bezug auf den Funktionswandel des Konjunktivs im Zusammenhang mit seinem Auftreten in indirekter Rede untersucht worden (vgl. die Übersichten in Ágel 2000 und von Polenz 2013). In geringem Umfang sind auch Redewiedergabeverben und ihr Verhältnis zur wiedergegebenen Rede in das Blickfeld der Forschung gerückt (eine kurze Synopse etwa bei Fritz 2005).

Um quantitative Untersuchungen zur Entwicklung von Redewiedergabeformen über die Zeit hinweg und im Textsortenvergleich zu ermöglichen und um Redeeinleiter und deren Argumentstruktur zu analysieren, wird ein Korpus aus Zeitungs- und Zeitschriftentexten sowie Erzähltexten aus den Jahren 1840-1920 manuell annotiert. Unter Rückgriff auf Voruntersuchungen (Semino/Short 2004 und Brunner 2014) soll mithilfe korpusanalytischer Methoden der Digital Humanities, wie maschinelles Lernen und Natural-Language-Processing (ein Überblick findet sich in Jannidis/Kohle/Rehbein 2017), ein automatischer Erkenner für Redewiedergabeformen entwickelt werden, der dann zur Annotation von weiterem Textmaterial verwendet wird. Damit handelt es sich hier um einen Anwendungsfall quantitativer Sprach- und Literaturwissenschaft, dessen Relevanz und Erfolg sich bereits in anderen Annotationsprojekten zu komplexen sprachlichen Phänomenen gezeigt hat (z.B. Metaphernannotation bei Steen et al. 2010, Kategorien der Zeit bei Gius/Jacke 2016).

Bei der Annotation unterscheiden wir die vier Typen direkte Wiedergabe (Er sagte: "Ich bin hungrig"), indirekte Wiedergabe (Er sagte, er sei hungrig.), erzählte Wiedergabe (Er sprach über das Mittagessen.) und freie indirekte Wiedergabe ('erlebte Rede') (Wo sollte er jetzt nur etwas zu essen bekommen?) und die drei Medien Rede, Gedanke und Schrift. Zudem markieren wir den Sprecher und wiedergabeeinleitende Verben bzw. Nomen.

Im Vortrag wird einerseits auf die Herausforderungen eingegangen, die eine systematische manuelle Annotation mit sich bringt: Die Erkennung und Unterscheidung einzelner Realisationsformen von Redewiedergabe ist auch für Menschen nicht trivial, weil nicht immer textuelle Indikatoren vorliegen und Interpretation und Textverständnis eine wichtige Rolle spielen. Andererseits werden erste Auswertungen präsentiert, die zeigen, zu welchen Erkenntnissen gerade die Verwendung digitaler Methoden kommen können – Erkenntnisse, die auch von linguistischem Interesse sind und Ansatzpunkte für weitere Analysen offenlegen.

 

Literatur
Ágel, Vilmos (2000): Syntax des Neuhochdeutschen bis zur Mitte des 20. Jahrhunderts. In: Werner Besch, Anne Betten, Oskar Reichmann (Hg.): Sprachgeschichte. Ein Handbuch zur Geschichte der deutschen Sprache und ihrer Erforschung. Band 2, 2. Auflage, Berlin et al.: de Gruyter, 1855-1903.

Brunner, Annelen (2015): Automatische Erkennung von Redewiedergabe. Ein Beitrag zur quantitativen Narratologie (Narratologia 47), Berlin et al.: de Gruyter.

Fritz, Gerd (2005): Einführung in die historische Semantik, Tübingen: Niemeyer.

Genette, Gerard (1998): Die Erzählung, 2. Auflage, München: Wilhelm Fink Verlag.

Gius, Evelyn/Jacke, Janina (2016): Zur Annotation narratologischer Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets. Version 2, Hamburg, Nov. 2016.

Jannidis, Fotis/Kohle, Hubertus/Rehbein, Malte (Hg.) (2007): Digital Humanities: eine Einführung, Stuttgart: J.B. Metzler.

Martinez, Matias/Scheffel, Michael (2009): Einführung in die Erzähltheorie, 8. Auflage, München: Beck.

McHale, Brian (2014): Speech Representation. In: Hühn, Peter et al. (Hg.): the living handbook of narratology. Hamburg: Universität Hamburg. URL: http://www.lhn.uni-hamburg.de/article/speech-representation  

von Polenz, Peter (2013): Deutsche Sprachgeschichte vom Spätmittelalter bis zur Gegenwart. Band II: 17. und 18. Jahrhundert, 2. Auflage, bearbeitet von Claudine Moulin und Dominic Harion, Berlin et al.: de Gruyter.

Semino, Elena/Short, Mick (2004): Corpus stylistics. Speech, writing and thought presentation in a corpus of English writing, London/New York: Routledge.

Steen, Gerard J. et al. (2010): A Method for Linguistic Metaphor Identification, Amsterdam: John Benjamins.