Beitrag auf der 4th European Conference on Social Media (ECSM 2017)

Die Professur für Anwendungssysteme und E-Business ist mit einem Beitrag auf der 4th European Conference on Social Media (ECSM 2017), die vom 3. bis zum 4. Juli 2017 in Vilnius (Litauen) stattfindet, vertreten.

Der Beitrag von Aaron Mengelkamp, Malte Rojahn und Matthias Schumann trägt den Titel "Evaluating Machine Learning Algorithms for Sentiment Classification of Tweets in Credit Assessment".

Abstract

Die Extraktion von Stimmungsindikatoren aus Daten von sozialen Medien beinhaltet bedeutendes Potential, um Hinweise auf die finanzielle (in)Stabilität von Unternehmen zu identifizieren. Stimmungsanalysen in diesem Bereich sind bisher aber ausschließlich mit Hilfe von manuellen oder stimmungswörterbuchbasierten Ansätzen durchgeführt worden. Da manuelle Ansätze großen Personalaufwand erfordern und Ergebnisse basierend auf Stimmungswörterbüchern keine zufriedenstellenden Ergebnisse hervorbringen, wird in dem Artikel evaluiert, inwiefern eine Stimmungsanalyse basierend auf maschinellen Lernalgorithmen bessere Resultate erzielen kann. Hierfür werden 216 Kombinationen von Methoden zur Merkmalsextratkion, Dimensionsreduktion, Merkmalsrepräsentation sowie den maschienellen Lernalgorithmen auf einen manuell klassifizierten Korpus bestehen aus 7071 Tweets angewandt. Ergebnisse von McNemar's Tests zeigen auf, dass der Bag-og-Words Algorithmus zur Merkmalsextraktion, Stemming, Transformationen zur Kleinschreibweise, das Entfernen von Satzzeichen sowie Zahlen, URLs und Stopwörtern zur Dimensionsreduktion in Kombination mit einer binären Merkmalsrepräsentation und einer Support Vector Machine Klassifikation am besten bewerkstelligen. Die Kombination dieser Methoden erzielt signifikant bessere Evaluationskennzahlen als die verbleibenden 215 Varianten. Nichtsdestotrotz sind Ansätze basierend auf Regressionsalgorithmen robuster gegenüber verschiedenen Vorverarbeitungstechniken, als Support Vector Machines und könnten daher trotz längerer Berechnungszeiten in praktischen Anwendungen sinnvoller sein. Die Ergebnisse ergänzen die bisherigen Erkenntnisse, da aufgezeigt wird, wie die Qualität von automatisierten Stimmungsanalysen in dem Anwendungsgebiet der Bonitätsprüfung von Unternehmen verbessert werden kann. Wissenschaftler und Praktiker können auf die Resultate zurückgreifen, um anwendungsgebietsspezifische Textklassifizierer zu konstruieren. Weiterhin können die verwendeten Klassifizierer, die sich aus verschiedenen öffentlich verfügbaren Softwarebibliotheken zusammensetzen, in anderen Anwendungsgebieten einsetzen, um die bestmögliche Kombination zu identifizieren.

Quellenangabe:

Mengelkamp, A., Rojahn, M.; Schumann, M.: Evaluating Machine Learning Algorithms for Sentiment Classification of Tweets in Credit Assessment, in: Proceedings of the 4th European Conference on Social Media