1 077 gårder, 12 land, Et stort datasett

Omfanget og kompleksiteten bak CoCos paneuropeiske bondeundersøkelse: Samtale med CITA-forskere

Hva skal egentlig til for å forstå hvordan bønder over hele Europa lever sammen med ulv, bjørn og jerv? For CoCo-prosjektet starter det med et spørreskjema og ca 1000 av dem, samlet fra gårder i 12 land og 30 case studieområder. Å fylle ut disse spørreskjemaene var en bragd i seg selv. Men å snu det resulterende fjellet av data til noe forskere faktisk kan analysere? Det har vært en helt annen utfordring. Vi snakket med Ana Grau Valenciano, forsker ved CITA Spania, for å finne ut hvordan den prosessen faktisk ser ut.

Feltarbeidere samlet bøndenes svar på papir under ansikt-til-ansikt-undersøkelsen som varte mellom 1 til 3 timer før de overførte dem til standardiserte Excel-ark, som deretter ble lastet opp til en delt stasjon. I teorien ble de innebygde formatbegrensningene designet for å holde svarene konsistente. I praksis vil et datasett som spenner over et dusin land, flere språk og mer enn 40 intervjuere og mer enn 1000 bønder alltid kaste opp overraskelser.

Jobben med å rense og konsolidere dataene har falt til et team på fire forskere ved CITA Aragon, CoCo spansk partner. Hver forsker tok ansvar for et sett med land, og sjekket at formateringsregler var fulgt, at svarene var fornuftige og at ingenting hadde glidd gjennom sprekkene. Alt måtte identifiseres, flagges og enten standardiseres eller settes til side for å sikre at det endelige datasettet er sammenlignbart i alle 12 land.

Det høres enkelt ut. Det er alt annet enn. De har jobbet med saken siden begynnelsen av februar.

Konfrontert med en så kompleks og massiv database, kan dataregistrering bli en monumental oppgave, hvor små feil naturlig oppstår på grunn av det overveldende volumet av informasjon. Det er imidlertid viktig å korrigere disse mindre opptaksfeilene for å sikre at den endelige analysen er streng og pålitelig.

Eduardo Torres Martínez

Forsker ved CITA Spania

Utfordringene handlet like mye om kompleksiteten i europeisk landbruk som om databehandling. På tvers av 12 land varierer oppdrettssystemene enormt, og det er ingen liten oppgave å tilpasse dette mangfoldet til de standardiserte, tette spørsmålene i en undersøkelse. Mange respondenter la til skriftlige kommentarer sammen med svarene sine, og beskrev nyanser og lokale realiteter som ikke helt kart på spørreskjemaets kategorier. På rengjøringsstadiet måtte teamet ta grundige beslutninger om hvordan de skulle tolke og kode disse tilleggsdetaljene – bedømmelsessamtaler som kunne påvirke hele datasettet.

De tekniske utfordringene var like krevende. Desimalskilletegn alene – et komma i noen land, en full stopp i andre – skapte betydelige inkonsekvenser på tvers av dataene. Og presisjon betydde enormt mye: Et enkelt siffer feil i koordinatene til en gård eller beitemark kan plassere en spansk gård et sted i Tyrkia. I mellomtiden krevde spørreskjemaets seksjon om rovdyrhendelser en egen rad for hver kombinasjon av rovdyrarter, husdyrtype og plassering, en struktur som krevde omhyggelig oppmerksomhet for å sikre at alle tilfeller ble riktig registrert og fullført.

Før rengjøringen kunne begynne, brukte teamet rundt en uke på å utvikle en presis protokoll, et felles sett med regler for å sikre at hver forsker tok nøyaktig de samme beslutningene når de møtte den samme situasjonen, og regnet med hele spekteret av unntak og kantsaker dataene kan kaste opp. Først da kunne selve arbeidet begynne.

Ved starten av prosessen tok arbeidet gjennom et enkelt lands datasett – rundt 100 spørreskjemaer – fra en hel dag til et par dager for en første revisjon, for deretter å starte frem og tilbake iterasjoner med partnere. Ved slutten hadde teamet blitt så tilpasset mønstrene til hver partners data at den samme oppgaven kunne gjøres på en halv dag. Men fart i rengjøringsfasen var bare en del av historien: Hver forespørsel som ble reist med en partner, utløste en runde frem og tilbake e-post og nettmøter som kunne strekke seg over uker, spesielt når feltarbeidere fortsatt var ute i feltet og ikke kunne sjekke de opprinnelige papirspørreskjemaene.

130.000 rader og telling

Den neste utfordringen er å kombinere alle de rensede nasjonale datasettene i en enkelt hoveddatabase. Databasen, som fortsatt er under oppbygging, inneholder allerede mer enn 130 000 rader. Da teamet forsøkte å slå den sammen i Excel, overskred filen programvarens minnegrenser. Løsningen er: konvertere alt til CSV-format først, fjerne skjulte tegn og formatering quirks, før du legger hvert lands data til hovedfilen en etter en. I tillegg, uten et grensesnitt som ikke krever at ´ gjengir dataene på en skjerm, sparer de massevis av minne i prosessen.

Når datasettet er ferdig, vil det bli delt mellom CoCos forskningspartnere for analyse på tvers av flere parallelle arbeidsstrømmer: oppdrett typologier og husdyrhold, effektiviteten av rovdyr forebyggende tiltak, bondens holdninger og synspunkter mot store rovdyr sin ledelse og andre styringsspørsmål og et valgeksperiment som undersøker hvordan bønder veier opp ulike politiske alternativer. Det er kort sagt det empiriske grunnlaget CoCos eventuelle politiske anbefalinger hviler på.

Omfanget av virksomheten gjenspeiler ambisjonene i prosjektet. Sameksistens mellom mennesker og store rovdyr er et av de mest omstridte spørsmålene i europeisk bevaringspolitikk. Å få dataene riktig – alle 130.000 rader – er der arbeidet begynner.