Language-Lab

Leitung: Prof. Dr. Caroline Sporleder
Team: Stefan Ziehe

Das Language Lab ist eine Plattform für verschiedene Aktivitäten auf dem Gebiet der digitalen Sprachanalyse. Die Arbeitsgruppen von Prof. Sporleder und Prof. Gipp (Informatik) sowie Prof. Holler und Prof. Coniglio (Linguistik) sind sehr aktiv. Das Graduiertenkolleg "Form-Meaning-Mismatches" arbeitet ebenfalls mit digitalen Methoden der Computerlinguistik.

Das Language Lab erforscht, wie menschliche Sprache automatisch verarbeitet und interpretiert werden kann. Es erforscht die mathematischen und logischen Eigenschaften natürlicher Sprache und entwickelt algorithmische und statistische Methoden zur automatischen Sprachverarbeitung auf der Grundlage von sprach- und textbasierten Sammlungen. Dazu gehören Textsammlungen (z.B. Zeitungs- und Zeitschriftentexte oder Twitter-Posts), Sprachaufzeichnungen (z.B. Reden oder Interviews) und entsprechende experimentelle Daten oder Messdaten (z.B. EEG, Eye-Tracking, Umfragen, Reaktionszeiten etc.).

In der Regel wird zu diesem Zweck ein Korpus (z.B. aus Zeitungsartikeln oder Reden) nach bestimmten Kriterien und mit einem bestimmten Forschungsziel erstellt. Auf dieser Grundlage kann man z.B. eine lexikalische Analyse der Worthäufigkeitsverteilung durchführen.
Dazu nutzen wir verschiedene Big-Data-Techniken, die mit Hilfe von Natural Language Processing (NLP), verschiedenen Arten von Algorithmen und statistischen Methoden unstrukturierte Texte in strukturierte, normalisierte Daten umwandeln. Dies geschieht mit dem Ziel, Texte zu kategorisieren (Clustering), Bedeutungen zu extrahieren, Themen zu klassifizieren (Topic Modelling), Beziehungen zu modellieren und Hypothesen zu erstellen. Dazu gehört auch das Auffinden von Informationen in großen Mengen sprachlicher Daten (Text Mining, Informationsextraktion) oder die automatische Suche nach relevanten Textpassagen (Information Retrieval). Gegenstand kann auch die Analyse der sprechenden Personen oder die Erkennung von Stimmungen (positiv oder negativ) bestimmter Texte wie Rezensionen oder Tweets sein.

Die automatisierte Analyse von Texten mit politischer Ausrichtung hat in den letzten Jahren enorm an Bedeutung gewonnen. Solche Texte können z.B. Wahlprogramme oder Regierungserklärungen sein, aber auch Social-Media-Daten wie Tweets mit politischem Inhalt. Typische Analyseaufgaben sind z.B. die automatisierte Erkennung von Hate Speech, die Identifikation von extrem parteiischen Inhalten (Hyperparteilichkeit), die Erkennung von Framing" und Agenda Setting, die Analyse von Wissensdurchsetzungsprozessen oder die Bewertung von Kommunikations- und Argumentationsstrukturen.

Diese Methoden sind nicht nur für die Linguistik, sondern für alle textbasierten Disziplinen wie Literaturwissenschaft, Philologien, Philosophie und Theologie sowie für die sprach- und textbasierte Forschung in den Geschichts-, Sozial- und Politikwissenschaften von großer Bedeutung.