Datenkritik und eine Animation weltweiter Proteste

Diese Visualisierung „aller Proteste seit 1979 weltweit“ macht gerade die Runde über diverse Blogs bis hin zu diversen Nachrichtenseiten. Zeit, mal etwas Datenkritik zu üben und zu schauen, was sich dahinter verbirgt.

Wenn man sich die Visualisierung für Deutschland anschaut, dann erkennt man ein enormes Übergewicht von Protesten in Berlin und Frankfurt. Andere deutsche Städte tauchen hier kaum auf, was doch etwas verwundert – auch wenn die beiden sicherlich Hochburgen einer linken Szene sind und waren, es ist nicht so, dass im Rest des Landes nichts passiert wäre. Ein ruhiges Ruhrgebiet im Strukturwandel der 80er Jahre? Eher unwahrscheinlich. Da stellt sich auch schnell die Frage – was ist eigentlich ein Protest? Ist eine Demo, auf der einsame 11 Leute herumstehen, ein Protest? Oder ist sie es erst am einer gewissen Größe? Ab einer gewissen Gewalteskalation? Und wie wurden diese Proteste überhaupt erfasst?

Es ist daher interessant, sich die Datengrundlage einmal etwas genauer anzuschauen. Die Visualisierung basiert auf der Global Database of Events, Language, and Tone (GDELT), einem Projekt der University of Dallas. Diese frei verfügbare Datenbank versammelt Daten zu 200 Millionen Ereignissen, welche sich seit 1979 weltweit ereignet haben.

Die Selbstbeschreibung:

Key Features
  • Covers all countries globally
  • Covers a quarter-century: 1979 to present
  • Daily updates every day, 365 days a year
  • Based on cross-section of all major international, national, regional, local, and hyper-local news sources, both print and broadcast, from nearly every corner of the globe, in both English and vernacular
  • 58 fields capture all available detail about event and actors
  • Ten fields capture significant detail about each actor, including role and type
  • All records georeferenced to the city or landmark as recorded in the article
  • Sophisticated geographic pipeline disambiguates and affiliates geography with actors
  • Separate geographic information for location of event and for both actors, including GNS and GNIS identifiers
  • All records include ethnic and religious affiliation of both actors as provided in the text
  • Even captures ambiguous events in conflict zones („unidentified gunmen stormed the mosque and killed 20 civilians“)
  • Specialized filtering and linguistic rewriting filters considerably enhance TABARI’s accuracy
  • Wide array of media and emotion-based „importance“ indicators for each event
  • Nearly a quarter-billion event records
  • 100% open, unclassified, and available for unlimited use and redistribution

Damit wird die Definition von „Protest“ klarer – die GDELT besitzt eine Kategorie, in der Proteste erfasst werden. Ebenso erklären die Datenquellen der GDELT das Fehlen einiger wichtiger deutschlandweiter Proteste in der Visualisierung. So sind etwa die Lichterketten des Winters 1992 gegen rechte Gewalt, welche immerhin zu den teilnehmerstärksten Protesten in der Geschichte der Bundesrepublik gehören, in der Animation praktisch nicht sichtbar.

Sources that were examined to identify events include all international news coverage from AfricaNews, Agence France Presse, Associated Press Online, Associated Press Worldstream, BBC Monitoring, Christian Science Monitor, Facts on File, Foreign Broadcast Information Service, United Press International, and the Washington Post.

Etwas Recherche enthüllt auch, dass Frankfurt gar keine Protesthochburg ist. Der Autor der Visualisierung erläutert in seinem Blog zu einer anderen Grafik:

First, the GDELT data is based on news reports from a variety of sources (a list of sources used can be found here under “Data Sources”). For better or for worse, journalistic accounts of events are about the best we can do for large-scale, global projects such as this. Second, if an event occurs but does not have a specific location within a country, e.g., “Protestors in Syria…”, the event is geolocated to the centroid of the country. This means that there may be some odd events at some locations, and with a high number of events.

Protesthochburg ist also nicht Frankfurt, sondern irgendeine Wiese in Hessen voller nicht georeferenzierter Ereignisse. Anscheinend sind die Proteste 1992 nicht georeferenziert und so leutet statt praktisch jeder halbwegs großen Stadt in Deutschland einfach nur eine Wiese im Nirgendwo hell auf. Ein schönes Beispiel, wie eine Visualisierung auf den ersten Blick in die Irre leiten kann und wie die Art der Visualisierung die Größe eines Protestes verdecken kann.

Aber schauen wir uns die GDELT-Daten doch mal genauer an. In einem PDF erläutern die Autoren, welche Datenvariablen sie benutzen, um Ereignisse zu klassifizieren. Dabei zeigt sich auch schön, in welchen Kategorien sie denken – so wird etwa die ethnische und religiöse Zugehörigkeit der Akteure genau erfasst. Die Ereignisse bekommen eine CAMEO-Nummer zugewiesen, welche in der Visualisierung dann ausgelesen werden. Im verlinkten PDF gibt es die verschiedenen Protestkategorien ab Seite 66. Das beantwortet auch unsere Eingangsfrage – ein Protest kann in dieser Visualisierung alles sein, von der bloßen Unterschriftensammlung hin zu ausgewachsenen Straßenschlachten. Die GDELT sammelt auch die Teilnehmerzahlen, diese werden in der Visualisierung aber nicht angezeigt. Auch das verdeckt vieles – zwischen ägyptischen Straßenschlachten mit hunderten von Toten und der Unterschriftensammlung einer Bürgerinitiative, die sich gegen eine neue Hähnchenmastanlage in Bad Iburg richtet, gibt es doch einen qualitativen Unterschied.

Noch schwerer zu bewerten ist die Qualität der GDELT-Daten. Die Auswertung der Daten verschiedener Zeitungen und Nachrichtenagenturen ist zwar der einzige Weg, um so eine Datenbank auf die Beine zu stellen, sie hängt aber natürlich stark von der Berichterstattung dieser ab. Gerade Zeitungen berichten ja nicht über jeden Protest – mal wird eine kleine Aktion groß herausgebracht, mal wird eine große Demo schlicht und einfach nicht erwähnt. Und gerade in Ländern, in denen die Pressefreiheit sehr eingeschränkt ist, stößt man auf diese Weise auf größere methodische Probleme. Protestaktionen etwa in der Sowjetunion wird man so nur schwer erfassen können. Ähnliches dürfte für Regionen wie Somalia gelten, in denen Journalismus nur schwer möglich ist. Gerade wenn man dann die Daten im globalen Kontext vergleicht, entstehen so schnell Löcher.

Ebenso kann es zu gewissen Verschiebungen im Berichterstattungsinteresse kommen. Man kennt das: Kaum gibt es etwa ein größeres Zugunglück, berichtet Spiegel Online plötzlich über jeden Regionalzug, der in der östlichen Slowakei gegen eine Kuh gefahren ist. Aus diesen Berichten eine Statistik über Zugunglücke zu erstellen, wird schnell zu einer falschen Datenbasis führen.

So, genug gemeckert: Die Visualisierung ist natürlich ein großartiges Projekt und zeigt auch, was die Digital Humanities leisten können. Ein derartiges Projekt ist ohne Computerunterstützung nicht möglich und es gibt trotz all meiner Kritik ja durchaus einen enormen Erkenntnisgewinn. Auch das GDELT-Projekt besitzt ein enormes Potential und ist für jeden in der jüngsten Zeitgeschichte arbeitenden Historiker einen Blick wert. Man muss die entsprechenden Daten nur mit der nötigen Quellenkritik betrachten. Dies tut Autor John Beieler auch – wirft man einen Blick in sein Blog, dann erläutert er genau, wie er die Animation erstellt hat und weist auch auf mögliche Probleme hin. Die fehlende Datenkritik findet sich hingegen bei den Zeitungen und Nachrichtenseiten, welche über diese Animation berichten. Dort fehlt durch die Bank die nötige Skepsis und es fehlen auch die nötigen Erklärungen. Ohne genaues Wissen um die Entstehung und Datengrundlage derartiger Animationen sind sie hingegen nur schwer zu verstehen und leiten gerne in die Irre.

Dieser Beitrag wurde unter Digitales Werkzeug, Karten abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

7 Kommentare zu Datenkritik und eine Animation weltweiter Proteste

  1. Gebloggt: Datenkritik und eine Animation weltweiter Proteste http://t.co/qyulgu6aXp

  2. Datenkritik und eine Animation von weltweiten Protesten http://t.co/RAi1T89roF

  3. RT @istuetzle: Mehr Licht! Datenkritik und eine Animation weltweiter Proteste http://t.co/h8QDjb0U7A #fb

  4. @MinusEins sagt:

    RT @MschFr: Für die Montagstwitterer: Datenkritik und eine Animation weltweiter Proteste http://t.co/qyulgu6aXp

  5. @LZpBNRW sagt:

    Visualisiert: #Proteste weltweit 1979-2013. Hintergründe & #BigData-Kritik dazu bei @MSchFr. http://t.co/pPDFDmuYWr

  6. @pcab50 sagt:

    RT @MschFr: Gebloggt: Datenkritik und eine Animation weltweiter Proteste http://t.co/qyulgu6aXp

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.