Ein paar nachträgliche Gedanken zum Ngram Viewer

Manchmal schreibe ich Beiträge zu schnell – vor Kurzem habe ich etwas über Googles Ngram Viewer geschrieben ohne vorher den dazugehörigen Science-Artikel gelesen zu haben. Mittlerweile ist eine rege Diskussion um das Tool entbrannt und so mancher hat mehrere Stunden seiner Frei- oder Arbeitzeit damit verbracht, Begriffe zu beobachten.
Aber es wurde auch nicht mit Kritik gegeizt: Im Entwicklungsteam seien keine Geisteswissenschaftler gewesen, die Auswahl der Bücher könne die Ergebnisse beeinflussen, es gebe Probleme mit der OCR und den Metadaten, andere Tools böten bessere und genauere Funktionen und so weiter. Geisteswissenschaftler schauen einem geschenkten Gaul nicht nur ins Maul, sondern sie beschweren sich auch noch über fehlende Hufeisen und gehen weiterhin lieber zu Fuß.

Der Blick in den Science-Artikel ist daher extrem erhellend und erklärt, woher einige dieser Probleme stammen. Zum einen ist die Form des Artikels für uns gerne lang schwafelnde Menschen von einer ungewohnten, naturwissenschaftlichen Kürze. Wo ein Historiker gerne 20 Seiten vollschreibt, um seine Periodisierung zu erklären, beschränken sich die Autoren hier auf gerade mal 4. Ja, vier Seiten. Auf diesen hauen sie aber mächtig auf den Putz: Sie erklären nicht nur ihr Tool und Vorgehen, sondern willen mit den culturomics auch gleich noch eine neue Disziplin gründen. Weiterhin berechnen sie die Entstehung von unregelmäßigen Verben, den Verlauf wissenschaftlicher Karrieren und die Halbwertszeit von Prominenz. Zum Schluss wird zu allem Überfluss auch noch ein Repressionsindex für Opfer des Nationalsozialismus ermittelt. Da knirscht der Historiker völlig zurecht mit den Zähnen, denn diese naturwissenschaftlich-technische Denkweise ist ihm nicht nur fremd – sie überfährt auch alle nötigen Differenzierungen.

Die Forschergruppe reflektiert ihre Ergebnisse in keinster Weise – was als Ergebnis aus dem Tool kommt, wird so akzeptiert. Hier prallen zwei nicht kompatible Denkweisen zusammen, die sich auch im Design des Ngram Viewer niederschlagen. Eines der größten Versäumnisse ist die fehlende Möglichkeit zur Kontextsuche. So kann ich zwar herausfinden, dass nach 1989 die Benutzung des Kürzels "DDR" ansteigt. Welchen Anteil daran aber die Diskussion über Diktatur und Wiedervereinigung hat und welchen ein ebenfalls mit "DDR" abgekürzter Speichertyp für PCs, lässt sich leider nicht so einfach herausfinden. Das ist schade, aber genau dieser Denkweise geschuldet (und natürlich auch dem Urheberrecht, welches hier die Forschung massiv einschränkt). Eine Verbesserung der Suchmöglichkeiten ist daher nötig – auch wenn das Forschungsteam natürlich eh die Rohdaten auswerten kann – wir können das nicht und wollen es aber. Wir wollen wissen, wie sich die Verteilung verschiedener Wörter in Sachbüchern, Romanen und Zeitungen unterscheidet. Wir wollen verschiedene Sprachen direkter vergleichen können. Und wir wollen auch unsere CPU auf der Suche nach neuen Erkenntnissen qualmen lassen – denn nur für Office und Citavi brauchen wir die hochgezüchteten Rechner unter unseren Schreibtischen nicht.

Was bedeutet das jetzt aber für unsere eigentliche Arbeit? Ich werde den Ngram Viewer auf jeden Fall in Zukunft einsetzen. Die – leider beschränkten – Möglichkeiten sind zu großartig, um sie zu ignorieren. Der Knackpunkt wird es sein, die mit dem Tool erhaltenen Daten kritisch zu hinterfragen und eine vernünftige Quellenkritik zu betreiben. Außerdem ist klar, dass diese Daten niemals alleine stehen können. Sie können zwar einen groben Überblick über kulturelle Strömungen bieten und sind ein ideales Tool, um bestehende Vermutungen schnell zu überprüfen, aber ohne Unterfütterung mit weiteren Quellen geht es nicht.

(Wer übrigens wissen will, wie man das Tool vernünftig bedient: Eine sinnvolle Suchstrategie präsentiert das Sprachlog und das schplock zeigt anhand der Rechtschreibreform von 1901 wie sich der Ngram Viewer einsetzen lässt)

Dieser Beitrag wurde unter Technik abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.