1.077 Farmen, 12 Länder, Ein riesiger Datensatz
| Date |
Date
|
Umfang und Komplexität der europaweiten Landwirtschaftsumfrage von CoCo: Ein Gespräch mit CITA-Forschenden
Was braucht es eigentlich, um zu verstehen, wie Landwirt*innen in ganz Europa neben Wölfen, Bären und Vielfraß leben? Für das CoCo-Projekt beginnt es mit einem Fragebogen und etwa 1.000 von ihnen, die von landwirtschaftlichen Betrieben in 12 Ländern und 30 Fallstudiengebieten gesammelt wurden. Diese Fragebögen auszufüllen, war eine Meisterleistung für sich. Aber den daraus resultierenden Datenberg in etwas zu verwandeln, das Forschende tatsächlich analysieren können? Das war eine ganz andere Herausforderung. Wir haben mit Ana Grau Valenciano, Forscherin bei CITA Spanien, gesprochen, um herauszufinden, wie dieser Prozess tatsächlich aussieht.
Die Feldarbeitenden sammelten die Antworten der Landwirt*innen auf Papier während der persönlichen Umfrage, die zwischen 1 und 3 Stunden dauerte, bevor sie in standardisierte Excel-Tabellen übertragen wurden, die dann auf ein gemeinsames Laufwerk hochgeladen wurden. Theoretisch wurden die integrierten Formatbeschränkungen so konzipiert, dass die Antworten konsistent bleiben. In der Praxis würde ein Datensatz, der ein Dutzend Länder, mehrere Sprachen und mehr als 40 Interviewende und mehr als 1.000 Landwirt*innen umfasst, immer Überraschungen bereiten.
Die Aufgabe, die Daten zu bereinigen und zu konsolidieren, ist einem Team von vier Forschenden des spanischen CoCo-Partners CITA Aragon zugefallen. Jede forschende Person übernahm die Verantwortung für eine Reihe von Ländern und überprüfte, ob die Formatierungsregeln befolgt wurden, dass Antworten sinnvoll waren und dass nichts durch die Risse gerutscht war. Alle Daten mussten identifiziert, gekennzeichnet und entweder standardisiert oder beiseite gelegt werden, um sicherzustellen, dass der endgültige Datensatz in allen 12 Ländern vergleichbar ist.
Klingt einfach. Es ist alles andere als das. Sie arbeiten seit Anfang Februar daran.
Bei den Herausforderungen ging es sowohl um die Komplexität der europäischen Landwirtschaft als auch um die Datenverarbeitung. In 12 Ländern variieren die landwirtschaftlichen Systeme enorm, und die Anpassung dieser Vielfalt an die standardisierten, eng gefassten Fragen einer Umfrage ist keine leichte Aufgabe. Viele Befragte fügten neben ihren Antworten schriftliche Kommentare hinzu, in denen sie Nuancen und lokale Realitäten beschrieben, die den Kategorien des Fragebogens nicht ganz zuzuordnen waren. In der Bereinigungsphase musste das Team sorgfältige Entscheidungen darüber treffen, wie dieses zusätzliche Detail zu interpretieren und zu kodieren ist – Beurteilungsaufrufe, die sich auf den gesamten Datensatz auswirken könnten.
Die technischen Herausforderungen waren ebenso anspruchsvoll. Dezimaltrennzeichen allein – in einigen Ländern ein Komma, in anderen ein vollständiger Stopp – führten zu erheblichen Inkonsistenzen in den Daten. Und Präzision war enorm wichtig: Eine einstellige falsche Stelle in den Koordinaten einer Farm oder eines Weidelandes könnte eine spanische Farm irgendwo in der Türkei platzieren. Unterdessen erforderte der Abschnitt des Fragebogens über Raubtiervorfälle eine separate Zeile für jede Kombination von Raubtierarten, Viehart und Standort, eine Struktur, die sorgfältige Aufmerksamkeit erforderte, um sicherzustellen, dass jeder Fall korrekt aufgezeichnet und abgeschlossen wurde.
Bevor die Reinigung überhaupt beginnen konnte, verbrachte das Team etwa eine Woche damit, ein genaues Protokoll zu entwickeln, ein gemeinsames Regelwerk, um sicherzustellen, dass jedes Teammitglied genau die gleichen Entscheidungen traf, wenn es mit der gleichen Situation konfrontiert war, wobei die gesamte Palette von Ausnahmen und Edge-Fällen berücksichtigt wurde, die die Daten möglicherweise aufwerfen. Erst dann konnte die Arbeit selbst beginnen.
Zu Beginn des Prozesses dauerte die Bearbeitung des Datensatzes eines einzelnen Landes – etwa 100 Fragebögen – von einem ganzen Tag auf ein paar Tage für eine erste Überarbeitung und begann dann mit den Hin- und Her-Iterationen mit Partner*innen. Am Ende war das Team so auf die Muster der Daten der jeweiligen Partner*innen eingestellt, dass die gleiche Aufgabe in einem halben Tag erledigt werden konnte. Aber die Geschwindigkeit in der Reinigungsphase war nur ein Teil der Geschichte: Jede Anfrage an Partner*innen löste eine Reihe von Hin- und Her-E-Mails und Online-Meetings aus, die sich über Wochen erstrecken konnten, insbesondere wenn Außendienstmitarbeitende noch nicht vor Ort waren und nicht in der Lage waren, die ursprünglichen Papierfragebögen zu überprüfen.
130.000 Zeilen und Zählen
Die nächste Herausforderung besteht darin, alle bereinigten nationalen Datensätze in einer einzigen Stammdatenbank zusammenzufassen. Diese Datenbank, die sich noch im Aufbau befindet, enthält bereits mehr als 130 000 Zeilen. Wenn das Team versuchte, sie in Excel zusammenzuführen, überschritt die Datei die Speichergrenzen der Software. Die Lösung: Zuerst alles in das CSV-Format konvertieren, versteckte Zeichen entfernen und Macken formatieren, bevor die Daten jedes Landes einzeln in die Stammdatei aufgenommen werden. Ohne eine Schnittstelle, über die die Daten auf einem Bildschirm rendern muss, sparen sie dabei eine Tonne Speicher.
Sobald der Datensatz fertig ist, wird er auf die Forschungspartner*innen des CoCo aufgeteilt, um ihn in mehreren parallelen Arbeitsbereichen zu analysieren: landwirtschaftliche Typologien und Viehhaltung, die Wirksamkeit von Maßnahmen zur Prävention von Raubtieren, Einstellungen und Ansichten der Landwirt*innen gegenüber Großraubtieren, Management- und andere Governance-Fragen sowie ein Auswahlexperiment, in dem untersucht wird, wie Landwirt*innen verschiedene politische Optionen abwägen. Kurz gesagt, es ist die empirische Grundlage, auf der die eventuellen politischen Empfehlungen des CoCo beruhen werden.
Der Umfang des Vorhabens spiegelt den Ehrgeiz des Vorhabens wider. Die Koexistenz von Menschen und Großraubtieren ist eines der umstrittensten Themen der europäischen Naturschutzpolitik. Die richtigen Daten – alle 130 000 Zeilen davon – sind der Ausgangspunkt dieser Arbeit.