1.077 Kmetije, 12 Države, Velik nabor podatkov

Obseg in zapletenost vseevropske raziskave med kmeti, ki jo je izvedel CoCo: Pogovor z raziskovalci CITA

Kaj je dejansko potrebno, da bi razumeli, kako kmetje po vsej Evropi živijo skupaj z volkovi, medvedi in volkovi? Za projekt CoCo se začne z vprašalnikom in približno 1 000 vprašalniki, zbranimi na kmetijah v 12 državah in 30 področjih študij primerov. Izpolnjevanje teh vprašalnikov je bilo samo po sebi podvig. Toda spreminjanje nastale gore podatkov v nekaj, kar lahko raziskovalci dejansko analizirajo? To je bil povsem drugačen izziv. Pogovarjali smo se z Ano Grau Valenciano, raziskovalko v CITA Španija, da bi ugotovili, kakšen je ta proces dejansko videti.

Terenski delavci so zbirali odgovore kmetov na papirju med osebno anketo, ki je trajala od 1 do 3 ure, preden so jih prenesli v standardizirane Excelove liste, ki so bili nato naloženi na skupni pogon. V teoriji so bile vgrajene omejitve formata zasnovane tako, da so odgovori dosledni. V praksi je nabor podatkov, ki zajema ducat držav, več jezikov in več kot 40 anketarjev ter več kot 1000 kmetov, vedno naletel na presenečenja.

Naloga čiščenja in konsolidacije podatkov je padla na ekipo štirih raziskovalcev pri CITA Aragon, španskem partnerju CoCo. Vsak raziskovalec je prevzel odgovornost za vrsto držav in preveril, ali so bila upoštevana pravila oblikovanja, da so bili odgovori smiselni in da ni nič zdrsnilo skozi razpoke. Vse je bilo treba opredeliti, označiti in standardizirati ali izločiti, da bi bil končni nabor podatkov primerljiv med vsemi 12 državami.

Sliši se preprosto. To je vse prej kot to. Na njem delajo že od začetka februarja.

Soočen s tako zapleteno in masivno bazo podatkov lahko vnos podatkov postane monumentalna naloga, kjer se zaradi ogromne količine informacij naravno pojavijo majhne napake. Vendar je popravljanje teh manjših napak pri beleženju bistveno za zagotovitev, da je končna analiza stroga in zanesljiva.

Eduardo Torres Martínez

Raziskovalec pri CITA Španija

Izzivi so se nanašali tako na kompleksnost evropskega kmetijstva kot na obdelavo podatkov. Sistemi kmetovanja se v 12 državah zelo razlikujejo, zato vključitev te raznolikosti v standardizirana in natančna vprašanja raziskave ni majhna naloga. Številni anketiranci so poleg odgovorov dodali pisne pripombe, v katerih so opisali nianse in lokalne realnosti, ki niso bile povsem preslikane v kategorije vprašalnika. V fazi čiščenja je morala ekipa sprejeti previdne odločitve o tem, kako razlagati in kodirati te dodatne podrobnosti – klice za presojo, ki bi lahko vplivali na celoten nabor podatkov.

Tehnični izzivi so bili enako zahtevni. Samo decimalni ločevalniki – v nekaterih državah vejica, v drugih popolna ustavitev – so povzročili velike nedoslednosti v podatkih. Natančnost je bila izjemno pomembna: enomestna napaka v koordinatah kmetije ali pašnika bi lahko špansko kmetijo postavila nekje v Turčiji. Medtem je oddelek vprašalnika o incidentih s plenilci zahteval ločeno vrstico za vsako kombinacijo vrst plenilcev, vrste živine in lokacije, strukturo, ki je zahtevala skrbno pozornost, da bi zagotovila, da je bil vsak primer pravilno evidentiran in popoln.

Preden se je čiščenje sploh lahko začelo, je ekipa približno teden dni razvijala natančen protokol, skupni sklop pravil, ki so zagotavljala, da je vsak raziskovalec sprejel popolnoma enake odločitve, ko se je soočal z isto situacijo, pri čemer je upošteval celoten obseg izjem in robnih primerov, ki bi jih podatki lahko bruhali. Šele takrat se lahko začne delo samo.

Na začetku postopka je delo prek nabora podatkov ene države – približno 100 vprašalnikov – trajalo od enega celega dne do nekaj dni za prvo revizijo, nato pa so se začele zaporedne ponovitve s partnerji. Na koncu se je ekipa tako prilagodila vzorcem podatkov vsakega partnerja, da je bilo mogoče isto nalogo opraviti v pol dneva. Toda hitrost v fazi čiščenja je bila le del zgodbe: vsako vprašanje, postavljeno pri partnerju, je sprožilo krog elektronskih sporočil in spletnih srečanj, ki so lahko trajala več tednov, zlasti ko so bili delavci na terenu še vedno zunaj in niso mogli preveriti prvotnih vprašalnikov v papirni obliki.

130.000 vrstic in štetje

Naslednji izziv je združitev vseh očiščenih nacionalnih naborov podatkov v enotno glavno podatkovno zbirko. Ta podatkovna zbirka, ki se še vedno sestavlja, že vsebuje več kot 130 000 vrstic. Ko jo je skupina poskušala združiti v Excelu, je datoteka presegla omejitve pomnilnika programske opreme. Rešitev: najprej pretvori vse v format CSV, odstrani skrite znake in oblikuje domišljije, nato pa v glavno datoteko doda podatke vsake države posebej. Poleg tega brez vmesnika, ki ´t ne potrebuje upodabljanja podatkov na zaslonu, pri tem prihranijo tono pomnilnika.

Ko bo nabor podatkov dokončan, bo razdeljen med raziskovalne partnerje CoCo za analizo na več vzporednih delovnih področjih: tipologije kmetovanja in upravljanje živine, učinkovitost ukrepov za preprečevanje plenilcev, odnos in stališča kmetov do velikih zveri, upravljanje in druga vprašanja upravljanja ter poskus izbire, s katerim se raziskuje, kako kmetje pretehtajo različne možnosti politike. Skratka, to je empirična podlaga, na kateri bodo temeljila morebitna politična priporočila CoCo.

Obseg podjetja odraža ambicije projekta. Soobstoj ljudi in velikih zveri je eno najbolj spornih vprašanj v evropski ohranitveni politiki. Pravilno pridobivanje podatkov – vseh 130 000 vrstic – je kraj, kjer se to delo začne.