Winterthurer Ansätze IV: Diskurslinguistik und Datamining: Clash der Forschungslogiken und wie man sie produktiv nutzen kann

Noah Bubenhofer
12.09.2018, 15.45 Uhr-16.30 Uhr, S06 XX, Symposium V

Noch nie in der Geschichte der Linguistik ist die massenhafte maschinelle Auswertung von Textdaten so verbreitet gewesen wie heute im digitalen Zeitalter der Big Data. Dies ist ein erfreulicher Effekt des linguistic turn, mit dem klar wird, wie viele gesellschaftlich relevanten Informationen in Sprachdaten stecken. Allerdings spielt bei solchen Analysen die Linguistik nur eine marginale Rolle: Es sind hauptsächlich informatische Methoden, momentan sogenanntes Deep Learning als Spielart des Machine Learnings, die oft ohne linguistischen Analysen auskommen (Bubenhofer 2018; Kuhn 2017). Diese Methoden „lernen“ z.B. mit Buchstaben-n-Grammen als Merkmal und manuell klassifizierten oder annotierten Daten ein „Sprachmodell“, mit dem unbekannte Daten klassifiziert oder annotiert werden können. Solche Modelle sind selbstredend auch für linguistische Fragestellungen, gerade etwa in der Diskurslinguistik, interessant. Ein Beispiel sind „Sentiment-Analysen“ (Liu 2015), mit denen Bewertungen in Texten als positiv oder negativ klassifiziert werden sollen.

Das Potenzial solcher Methoden geht allerdings damit einher, dass bei ihrem unreflektierten Einsatz Forschungslogiken und theoretische Prämissen mit importiert werden und es fragwürdig erscheint, ob sie für die anders gelagerten Forschungsinteressen in den Geisteswissenschaften generell und der Diskurslinguistik im Speziellen geeignet sind.

Statt aber von vornherein die Inkompatibilität zu behaupten und solche Methoden zu ignorieren, ist eine produktive Nutzung möglich, wenn die theoretischen und methodologischen Prämissen reflektiert und die Methoden angepasst werden. Im Vortrag möchte ich diese kritische Reflexion anhand der Sentiment-Analyse skizzieren.