Tagclouds als Forschungsinstrument

By ethority - social media intelligence team
In Juli 13, 2009

Für viele sind Tagclouds (Schlagwortwolken) oder ihre allgemeinere Form der Wordcloud nicht viel mehr als eine ästhetisch ansprechende Spielerei. Das hängt sicher auch davon ab, dass solche Häufigkeitsauszählungen von signifikanten Begriffen (denn darum handelt es sich eigentlich) mittlerweile nicht mehr reine Wortlisten sind, sondern wie kleine Kunstwerke aussehen: mit unterschiedlichen Schrifttypen, Formaten, Schreibrichtungen, wenn nicht sogar als dreidimensionale interaktive Objekte.

Meine erste Begegnung mit Tagclouds kam – wahrscheinlich bin ich da kein Einzelfall – mit der Social-Bookmarking-Plattform del.icio.us bzw. der Fotoplattform Flickr. Die Tagclouds waren damals der hübsche Zwilling der Folksonomy. Dieser Kunstbegriff von Thomas Vander Wal verbindet die Weisheit der „einfachen“ Leute („folk“) mit dem Ordnungsstreben der Taxonomen. Folksonomien sind ein Paradebeispiel für eine der soziologischen Grundweisheiten – nämlich der Entstehung von Kollektivtatsachen durch das unkoordinierte Handeln Einzelner. Die Folksonomy, die durch das Verschlagworten eines Bildes durch viele unterschiedliche Nutzer entsteht, ist mehr als die Summe ihrer Teile, denn sie stellt die Wissensordnung einer Gruppe oder Masse dar.

Auf einzelne Texte angewendet, können Wordclouds auch als analytisches Instrument verwendet werden, das einem ermöglicht, einen Überblick über einen Text oder einen Textcorpus aus mittlerer Flughöhe zu gewinnen. Insofern überrascht es nicht, dass die qualitative Internetforschung dieses Instrument ebenfalls für sich entdeckt hat. Robert Kozinets, der Nestor der Netnography, stellt zwei Arten der Textanalyse gegenüber: Auf der einen Seite die immer ausgeklügelteren wortbasierten Analysen, in denen Texte in ihre einzelnen semantischen oder syntaktischen Atome zerlegt und vermessen werden. Auf der anderen Seite die sehr viel intuitivere und holistische Erfassung einer großen Textmenge durch Wordclouds („diddling with the doodling“) wie zum Beispiel für die Reden von Barack Obama und Hillary Clinton letzten Dezember.

Natürlich sind diese Begriffswolken immer auch bis zu einem gewissen Grad Spielerei. Aber Kozinets ist überzeugt, dass richtig eingesetzt sehr viel mehr dahinter steckt:

In the play, in that visual appeal, I think there is something deeper that can happen. Because we get some good analysis packed into an at-a-glance form, I think we have opportunities to use that ultimate piece of ’software,’ the human mind and imagination, to glean insight from these word pictures. We can run poetic comparisons on these scrambled word omelets. And then we can use them to launch creative inquiries into the text. Delving deeper using all our other tools, from content analysis word counts to hermeneutic mindful deep breathing.

Für uns im ethority-Lab spielen beide Ansätze eine große Rolle, doch die spannendsten Einblicke ergeben sich oft aus der Kombination von analytischem und holistischem Vorgehen. Zum Beispiel wenn ein Textcorpus (etwa die Außendarstellung eines Unternehmens oder einer Partei in ihren Pressemitteilungen) ein ganz anderes Bild ergibt, je nachdem ob man den Gesamteindruck in Gestalt einer Wordcloud auf sich wirken lässt oder ob man die Texte in ihre Bestandteile zerlegt und im Detail analysiert. Auch die Gegenüberstellung von Titel und Abstract auf der einen und Wordcloud auf der anderen Seite kann zu interessanten Ergebnissen führen.

Eine sehr schöne Anwendung habe ich bei Christoph Koch gefunden, der die Wahlprogramme der Parteien nicht nur als Wordclouds dargestellt hat, sondern auch noch jeweils einen Claim daraus extrahiert hat. Dies sind also die „heimlichen Überschriften“ der Bundestagswahlprogramme:

  • CDU/CSU: “Menschen müssen Deutschland mehr fördern!”
  • SPD: “Menschen müssen dafür mehr Arbeit!”
  • FDP: “Freiheit mehr Deutschland!”
  • Bündnis90/Grüne: “Brauchen deshalb neue Menschen!”
  • LINKE: “Frauen müssen Unternehmen sichern! Gesellschaft einführen!”
  • Piratenpartei: “Bürger müssen Daten! Zugang fordern Schutz!”

Wordclouds der Parteien zur Bundestagswahl
Man kann die Texte noch weiter verdichten und jeweils das Kernkonzept der Parteiprogramme herausarbeiten:

  • „Deutschland“ für die CDU
  • „Mehr“ für die SPD – interessanterweise spielt im SPD-Programm der Begriff „SPD“ nur eine untergeordnete Rolle. Neue Bescheidenheit? Auch die Begriffe auf dem Titel des Wahlprogramms „Sozial und demokratisch“ tauche nur selten auf.
  • „FDP“ für die FDP
  • „Menschen“ für die Grünen
  • „LINKE“ für Die Linke – in diesem Punkt eine interessante Parallele zur FDP, die ebenfalls den eigenen Namen in den Mittelpunkt stellt
  • „Bürger“ für die Piratenpartei

0 Comments

  1. Eigentlich interessant – aber das ist dann eher quantitative Inhaltsanalyse als Tagclouds – wird’s ja, wenn z.B. relative Häufigkeiten betrachtet werden. Z.B. Menschen/Bürger/Deutschland/Wir in Relation zueinander in den unterschiedlichen Parteien. Oder die relative Häufigkeit von Arbeit/Unternehmen/Bildung.

  2. @Claas: Es mögen nur Nuancen sein, die die Parteien voneinander differenziert, aber die sind entscheidend.

  3. Nette Analyse! Aber natürlich ist das Ergebnis auch ein Zeichen dafür, dass es relativ egal ist, wie präzise man diese Auswertung erstellt. Das Ergebnis dürfte in aller Regel austauschbar unter den einzelnen Parteien sein, da kaum noch klare individuelle Profile der Parteien erkennbar sind, mal abgesehen von den unterschiedlichen Farben vielleicht 😉

  4. Klar, die Auswahl der herausgefilterten Stopwords ist eine heikle Angelegenheit, zumal es von Mal zu Mal andere sind. Die Begriffe „mehr“ und „weniger“ sind in manchen Texten nicht relevant, hier aber sehr wichtige Indikatoren. Die Trennstriche sind zumindest bei HTML-Seiten (wenn sie nicht gar zu gruselig programmiert sind) kein Problem.

    Zu den häufigsten Begriffen würde ich folgendes vermuten:

    1) Der Parteiname muss hinein und wird alternierend mit „wir“ verwendet. These: Es gibt Wir-Parteien und es gibt Namens-Parteien, also „Wir setzen uns dafür ein …“ versus „Die FDP steht für …“. Allerdings müsste man sehen, ob es nicht auch an der Unterscheidung Namensparteien vs. Abkürzungsparteien liegt.

    2) „Menschen“ und „Deutschland“ müssen hinein. Wo kämen wir denn hin, wenn bei einer Bundestagswahl über Europa geredet werden würde 😉 Ich vermute, dort wo hier „Menschen“, „Deutschland“ und „Deutsche“ steht, steht in anderen Ländern „Volk“.

    3) Mit „Mehr“ werden Ziele markiert. „Weniger“ ist out.

    4) „Müssen“ muss in die Programme, um zu zeigen, dass dieses „Mehr“ für „Deutschland“ nicht umsonst zu haben ist, sondern die „Menschen“ Anstrengungen dafür bringen müssen.

  5. Methodisch hat das ganze allerdings den Haken, dass erstens genau überlegt sein will, welche Wörter gefiltert werden (z.B. „mehr“ rein oder raus?), dass zweitens eigentlich ein Text ohne Trennstriche vorliegen muss, und dass drittens – so jedenfalls meine Versuche – es ziemlich viel Aufwand bedeuten kann, Kopf- und Fusszeilen rauszuwerfen.

    Zu den Ergebnissen: was ich auffällig finde, ist die Tatsache, dass über fast alle Parteien hinweg „Parteiname“, „müssen“, „mehr“, „Deutschland“ und „Menschen“ sehr häufig sind. Weisst drauf hin, dass es schon sowas wie einen weit verbreiteten Politikduktus gibt.

  6. „Frauen müssen Unternehmen sichern!“

    *lol*

    Dafür! 🙂

  7. toll ! und die Aussagen sind aussagend

  8. wunderbare idee. funktioniert ganz gut, wie ich finde.

Leave A Comment