1 077 gårdar, 12 länder, en enorm datamängd

Omfattningen och komplexiteten bakom uppförandekodens alleuropeiska bondeundersökning: Samtal med CITA-forskare

Vad krävs egentligen för att förstå hur bönder i hela Europa lever tillsammans med vargar, björnar och järv? För CoCo-projektet börjar det med ett frågeformulär och cirka 1 000 av dem, insamlade från gårdar i 12 länder och 30 fallstudieområden. Att få dessa enkäter fyllda i var en bedrift i sig. Men att vända det resulterande berget av data till något forskare faktiskt kan analysera? Det har varit en helt annan utmaning. Vi pratade med Ana Grau Valenciano, forskare vid CITA Spain, för att ta reda på hur den processen faktiskt ser ut.

Fältarbetare samlade in jordbrukarnas svar på papper under den personliga undersökningen som varade mellan 1 och 3 timmar innan de överfördes till standardiserade Excel-ark, som sedan laddades upp till en delad enhet. I teorin utformades de inbyggda formatbegränsningarna för att hålla svaren konsekventa. I praktiken kommer ett dataset som spänner över ett dussin länder, flera språk och mer än 40 intervjuare och mer än 1000 jordbrukare alltid att kasta upp överraskningar.

Arbetet med att rensa och konsolidera data har fallit till ett team av fyra forskare vid CITA Aragon, CoCo spanska partner. Varje forskare tog ansvar för en uppsättning länder och kontrollerade att formateringsreglerna hade följts, att svaren var meningsfulla och att ingenting hade glidit igenom sprickorna. Allt detta måste identifieras, flaggas och antingen standardiseras eller åsidosättas för att säkerställa att det slutliga datasetet är jämförbart i alla tolv länder.

Det låter enkelt. Det är allt annat än. De har arbetat med det sedan början av februari.

Inför en så komplex och massiv databas kan datainmatning bli en monumental uppgift, där små fel naturligt uppstår på grund av den överväldigande mängden information. Att korrigera dessa mindre registreringsfel är dock avgörande för att säkerställa att den slutliga analysen är rigorös och tillförlitlig.

Eduardo Torres Martínez

Forskare vid CITA Spanien

Utmaningarna handlade lika mycket om det europeiska jordbrukets komplexitet som om databehandling. I 12 länder varierar jordbrukssystemen enormt, och det är ingen liten uppgift att passa in den mångfalden i de standardiserade, slutna frågorna i en undersökning. Många respondenter lade till skriftliga kommentarer tillsammans med sina svar, som beskriver nyanser och lokala realiteter som inte riktigt kartlades på frågeformulärets kategorier. I rengöringsskedet var teamet tvunget att fatta noggranna beslut om hur den ytterligare detaljen skulle tolkas och kodas – bedömningssamtal som kunde påverka hela datasetet.

De tekniska utmaningarna var lika krävande. Enbart decimalseparatorer – ett kommatecken i vissa länder, ett fullständigt stopp i andra – skapade betydande inkonsekvenser mellan uppgifterna. Precisionen betydde enormt mycket: En enda siffra fel i koordinaterna för en gård eller betesmark kan placera en spansk gård någonstans i Turkiet. Under tiden krävde frågeformulärets avsnitt om rovdjursincidenter en separat rad för varje kombination av rovdjursarter, boskapstyp och plats, en struktur som krävde noggrann uppmärksamhet för att säkerställa att varje fall registrerades korrekt och komplett.

Innan städningen ens kunde börja spenderade teamet ungefär en vecka på att utveckla ett exakt protokoll, en gemensam uppsättning regler för att säkerställa att varje forskare fattade exakt samma beslut när de stod inför samma situation och redogjorde för hela skalan av undantag och kantfall som data kan kasta upp. Först då kan själva arbetet börja.

I början av processen tog arbetet med ett enda lands dataset – omkring 100 frågeformulär – från en hel dag till ett par dagar för en första översyn och började sedan iterationerna med partner fram och tillbaka. I slutändan hade teamet blivit så anpassat till mönstren för varje partners data att samma uppgift kunde utföras på en halv dag. Men hastigheten i rengöringsfasen var bara en del av historien: Varje fråga som togs upp med en partner utlöste en omgång fram och tillbaka e-postmeddelanden och onlinemöten som kunde sträcka sig över veckor, särskilt när fältarbetare fortfarande var ute på fältet och inte kunde kontrollera de ursprungliga pappersfrågeformulären.

130 000 rader och räkna

Nästa utmaning är att kombinera alla rengjorda nationella dataset till en enda huvuddatabas. Databasen – som fortfarande håller på att sammanställas – innehåller redan mer än 130 000 rader. När teamet försökte slå samman den i Excel överskred filen programvarans minnesgränser. Lösningen: Konvertera allt till CSV-format först, ta bort dolda tecken och formatera egenheter, innan du lägger till varje lands data i huvudfilen en efter en. Plus, utan ett gränssnitt som inte ´t behöver göra data på en skärm, sparar de massor av minne i processen.

När datauppsättningen är klar kommer den att delas upp mellan CoCo:s forskningspartner för analys i flera parallella arbetsflöden: jordbrukstypologier och djurhållning, effektiviteten i rovdjursförebyggande åtgärder, jordbrukarnas attityder och åsikter om stora rovdjur, förvaltningen och andra styrningsfrågor samt ett urvalsexperiment som undersöker hur jordbrukare väger olika politiska alternativ. Det är kort sagt den empiriska grund som uppförandekodens eventuella politiska rekommendationer kommer att vila på.

Företagets storlek återspeglar projektets ambition. Samexistens mellan människor och stora rovdjur är en av de mest omtvistade frågorna i den europeiska bevarandepolitiken. Rätta till uppgifterna – alla 130 000 rader – är där det arbetet börjar.