1077 Lauku saimniecības, 12 Valstis, Milzīga datu kopa

CoCo Eiropas mēroga lauksaimnieku apsekojuma mērogs un sarežģītība: Saruna ar CITA pētniekiem

Ko tas patiesībā nozīmē, lai saprastu, kā lauksaimnieki visā Eiropā dzīvo kopā ar vilkiem, lāčiem un vilku? Attiecībā uz CoCo projektu tas sākas ar anketu, un aptuveni 1000 no tām ir savāktas no lauku saimniecībām 12 valstīs un 30 gadījumu izpētes apgabalos. Šo anketu aizpildīšana pati par sevi bija feat. Bet iegūto datu kalnu pārvēršot par kaut ko, ko pētnieki faktiski var analizēt? Tas bija pavisam cits izaicinājums. Mēs runājām ar Spānijas CITA pētnieci Ana Grau Valenciano, lai uzzinātu, kā šis process patiesībā izskatās.

Lauka darbinieki apkopoja lauksaimnieku atbildes uz papīra klātienes aptaujā, kas ilga no 1 līdz 3 stundām, pirms tās tika pārnestas uz standartizētām Excel lapām, kuras pēc tam tika augšupielādētas koplietojamā diskā. Teorētiski iebūvētie formāta ierobežojumi tika izstrādāti tā, lai nodrošinātu atbilžu konsekvenci. Praksē datu kopa, kas aptvēra duci valstu, vairākas valodas un vairāk nekā 40 intervētājus un vairāk nekā 1000 lauksaimnieku, vienmēr gatavojās pārsteigt.

Datu tīrīšanas un konsolidēšanas darbs ir uzticēts četru pētnieku komandai CITA Aragonā, CoCo Spānijas partnerī. Katrs pētnieks uzņēmās atbildību par valstu kopumu, pārbaudot, vai ir ievēroti formatēšanas noteikumi, vai atbildes ir loģiskas un vai nekas nav noslīdējis cauri plaisām. Tas viss bija jāidentificē, jāatzīmē un vai nu jāstandartizē, vai arī jāatstāj malā, lai nodrošinātu, ka galīgā datu kopa ir salīdzināma visās 12 valstīs.

Tas izklausās vienkārši. Tas ir kaut kas cits. Viņi pie tā strādā kopš februāra sākuma.

Saskaroties ar tik sarežģītu un masveida datubāzi, datu ievade var kļūt par monumentālu uzdevumu, kur nelielas kļūdas dabiski rodas milzīgā informācijas apjoma dēļ. Tomēr šo nelielo reģistrēšanas kļūdu labošana ir būtiska, lai nodrošinātu, ka galīgā analīze ir stingra un uzticama.

Eduardo Torres Martínez

Spānijas CITA pētniece

Problēmas bija saistītas gan ar Eiropas lauksaimniecības sarežģītību, gan ar datu apstrādi. 12 valstīs lauksaimniecības sistēmas ir ļoti atšķirīgas, un šīs dažādības iekļaušana standartizētos, cieši saistītos aptaujas jautājumos nav mazs uzdevums. Daudzi respondenti pievienoja rakstiskas piezīmes kopā ar savām atbildēm, aprakstot nianses un vietējo realitāti, kas nebija gluži kartēta anketas kategorijās. Tīrīšanas posmā komandai bija jāpieņem rūpīgi lēmumi par to, kā interpretēt un kodēt šo papildu detaļu — sprieduma aicinājumus, kas varētu ietekmēt visu datu kopu.

Tehniskās problēmas bija vienlīdz sarežģītas. Decimāldaļu atdalītāji vien — komats dažās valstīs, pilnīgs apstāšanās punkts citās valstīs — radīja būtiskas neatbilstības datos. Un precizitātei bija milzīga nozīme: viena cipara kļūda saimniecības vai ganību koordinātās varētu novietot Spānijas saimniecību kaut kur Turcijā. Tikmēr anketas sadaļā par plēsēju incidentiem bija nepieciešama atsevišķa rinda katrai plēsēju sugu, mājlopu veida un atrašanās vietas kombinācijai, struktūra, kas prasīja rūpīgu uzmanību, lai nodrošinātu, ka katrs gadījums tiek pareizi reģistrēts un pabeigts.

Pirms tīrīšana pat varētu sākties, komanda pavadīja apmēram nedēļu, izstrādājot precīzu protokolu, kopīgu noteikumu kopumu, lai nodrošinātu, ka katrs pētnieks, saskaroties ar vienu un to pašu situāciju, pieņēma tieši tādus pašus lēmumus, ņemot vērā visus izņēmumus un perifērijas gadījumus, ko dati varētu izmest. Tikai tad varētu sākties pats darbs.

Procesa sākumā darbs, izmantojot vienas valsts datu kopu (aptuveni 100 anketas), ilga no vienas pilnas dienas līdz pāris dienām pirmajai pārskatīšanai, un pēc tam sākās turp un atpakaļ iterācijas ar partneriem. Līdz beigām komanda bija tik ļoti pieskaņojusies katra partnera datu modeļiem, ka vienu un to pašu uzdevumu varēja veikt pusdienlaikā. Bet ātrums tīrīšanas fāzē bija tikai daļa no stāsta: katrs vaicājums, kas tika uzdots kopā ar partneri, izraisīja turp un atpakaļ e-pastu un tiešsaistes sanāksmju kārtu, kas varētu ilgt vairākas nedēļas, jo īpaši tad, ja lauka darbinieki joprojām atradās laukā un nevarēja pārbaudīt sākotnējās papīra anketas.

130 000 rindas un skaitīšana

Nākamais uzdevums ir apvienot visas attīrītās valstu datu kopas vienā galvenajā datubāzē. Šajā datubāzē, kas joprojām tiek apkopota, jau ir vairāk nekā 130 000 rindu. Kad komanda mēģināja to apvienot programmā Excel, fails pārsniedza programmatūras atmiņas ierobežojumus. Risinājums: visu vispirms konvertēt CSV formātā, noņemt slēptās rakstzīmes un formatēt quirks, pirms katras valsts datu pievienošanas pamatdatnei pa vienam. Turklāt bez saskarnes, kurai ´t nav nepieciešams attēlot datus ekrānā, tie šajā procesā ietaupa tonnu atmiņas.

Kad datu kopa būs pabeigta, tā tiks sadalīta starp CoCo pētniecības partneriem analīzei vairākos paralēlos darba virzienos: lauksaimniecības tipoloģijas un lopkopības pārvaldība, plēsēju profilakses pasākumu efektivitāte, lauksaimnieku attieksme un uzskati par lielajiem plēsējiem, to pārvaldība un citi pārvaldības jautājumi, kā arī izvēles eksperiments, kurā pētīts, kā lauksaimnieki izvērtē dažādus politikas risinājumus. Īsāk sakot, tas ir empīrisks pamats, uz kura balstīsies CoCo iespējamie politikas ieteikumi.

Saistību apjoms atspoguļo projekta vērienīgumu. Cilvēku un lielo plēsēju līdzāspastāvēšana ir viens no visstrīdīgākajiem jautājumiem Eiropas saglabāšanas politikā. Datu sakārtošana – visas 130 000 rindas – ir vieta, kur sākas šis darbs.