Daten

Datengrundlage

Um den Onlinewahlkampf zu analysieren werden Facebook Posts der Kandidat*innen und Parteien analysiert. Berücksichtigt wurde hierbei die Posts der Parteienaccounts der CDU, SPD, FDP, AfD, Grünen sowie der Linken. Darüber hinaus wurden die Posts des CDU Spitzenkandidaten und aktuellen Ministerpräsidenten Boris Rhein, der SPD Spitzenkandidatin Nancy Faeser, des FDP Kandidaten Stefan Naas sowie AfD Kandidat Robert Lambrou. Dementsprechend ist die Datengrundlage dahingehend verzerrt, dass für die ebengenannten Parteien mehr Daten vorliegen als für die Grünen und die Linke, wodurch für diese ein bessere Datengrundlage besteht.

Topic Model

Topic Modeling ist eine Methode des maschinellen Lernens, die verwendet wird, um versteckte Strukturen in großen Textkorpora zu entdecken. Das Ziel besteht darin, automatisch Themen oder Kategorien zu identifizieren, die in den Textdaten vorkommen, ohne dass vorherige Kenntnisse über die Themen erforderlich sind. Ein typisches Ergebnis des Topic Modelings ist eine Liste von Schlüsselwörtern, die jedes identifizierte Thema repräsentieren, sowie die Wahrscheinlichkeit, mit der jedes Thema in einem bestimmten Dokument vorkommt.

BERTopic ist ein Python-Paket, das auf der BERT (Bidirectional Encoder Representations from Transformers)-Technologie basiert. Es kombiniert BERT Embeddings mit Clustering-Algorithmen, um automatisch Themen in Textdaten zu identifizieren. Der Ansatz von BERTopic ermöglicht es, semantisch zusammenhängende Themen zu erkennen und die Zuordnung von Dokumenten zu Themen zu verbessern. Das Paket bietet auch Funktionen zur Visualisierung und Evaluierung der extrahierten Themen. Es ist einfach zu bedienen und kann auf verschiedene Arten von Textdaten angewendet werden, einschließlich sozialer Medien, Nachrichtenartikeln, wissenschaftlicher Texte und mehr.

Im Folgenden ein Youtubevideo, welches Topic Models kurz erläutert und anschließend genauer auf der hier verwendete BERTopic eingeht.