1 077 fariem, 12 krajín, Obrovský súbor údajov
| Date |
Date
|
Rozsah a zložitosť celoeurópskeho prieskumu CoCo zameraného na poľnohospodárov: Konverzácia s výskumníkmi CITA
Čo vlastne znamená pochopiť, ako poľnohospodári v celej Európe žijú po boku vlkov, medveďov a vlkodlakov? V prípade projektu CoCo sa začína dotazníkom a približne 1 000 z nich sa zbiera z poľnohospodárskych podnikov v 12 krajinách a 30 oblastiach prípadovej štúdie. Vyplnenie týchto dotazníkov bolo samo o sebe úspechom. Ale premeniť výslednú horu dát na niečo, čo môžu výskumníci skutočne analyzovať? Bola to úplne iná výzva. Hovorili sme s Ana Grau Valenciano, výskumníčkou v CITA Španielsko, aby sme zistili, ako tento proces skutočne vyzerá.
Pracovníci v teréne zhromaždili odpovede poľnohospodárov na papieri počas osobného prieskumu, ktorý trval 1 až 3 hodiny pred ich prenosom do štandardizovaných excelových hárkov, ktoré sa potom nahrali na spoločnú jednotku. Teoreticky boli vstavané obmedzenia formátu navrhnuté tak, aby udržali konzistentné odpovede. V praxi sa súbor údajov zahŕňajúci tucet krajín, viacero jazykov a viac ako 40 anketárov a viac ako 1 000 poľnohospodárov vždy chystal vyvrátiť prekvapenia.
Práca na čistení a konsolidácii údajov pripadla tímu štyroch výskumníkov v CITA Aragon, španielskom partnerovi CoCo. Každý výskumník prevzal zodpovednosť za súbor krajín a skontroloval, či sa dodržali pravidlá formátovania, či odpovede dávali zmysel a či sa nič neskĺzlo cez trhliny. Všetky tieto údaje museli byť identifikované, označené a buď štandardizované, alebo vyčlenené, aby sa zabezpečila porovnateľnosť konečného súboru údajov vo všetkých 12 krajinách.
Znie to jednoducho. Je to čokoľvek iné. Pracujú na ňom od začiatku februára.
Výzvy sa týkali tak zložitosti európskeho poľnohospodárstva, ako aj spracovania údajov. V 12 krajinách sa poľnohospodárske systémy výrazne líšia a začlenenie tejto rozmanitosti do štandardizovaných, uzavretých otázok prieskumu nie je malou úlohou. Mnohí respondenti pridali k svojim odpovediam písomné pripomienky, v ktorých opisovali nuansy a miestne skutočnosti, ktoré sa do kategórií dotazníka celkom nezaradili. Vo fáze čistenia musel tím prijať starostlivé rozhodnutia o tom, ako interpretovať a kódovať tieto ďalšie podrobnosti – výzvy na posúdenie, ktoré by mohli ovplyvniť celý súbor údajov.
Technické výzvy boli rovnako náročné. Samotné oddeľovače desatinných miest – čiarka v niektorých krajinách, úplné zastavenie v iných – spôsobili značné nezrovnalosti v údajoch. A precíznosť bola nesmierne dôležitá: jediná chybná číslica v súradniciach farmy alebo pasienkov by mohla umiestniť španielsku farmu niekde v Turecku. Medzitým časť dotazníka o incidentoch predátorov vyžadovala samostatný riadok pre každú kombináciu druhov predátorov, typu hospodárskych zvierat a umiestnenia, štruktúru, ktorá vyžadovala starostlivú pozornosť, aby sa zabezpečilo, že každý prípad bol správne zaznamenaný a úplný.
Predtým, ako sa čistenie mohlo dokonca začať, tím strávil asi týždeň vývojom presného protokolu, spoločného súboru pravidiel, aby sa zabezpečilo, že každý výskumník urobí presne rovnaké rozhodnutia, keď čelí rovnakej situácii, čo predstavuje celý rad výnimiek a okrajových prípadov, ktoré by údaje mohli zvrhnúť. Až potom sa mohla začať samotná práca.
Na začiatku procesu trvala prvá revízia prostredníctvom súboru údajov jednej krajiny – približne 100 dotazníkov – jeden celý deň až niekoľko dní a potom sa s partnermi začali opakovania. Tím sa nakoniec natoľko prispôsobil vzorcom údajov každého partnera, že rovnakú úlohu bolo možné vykonať za pol dňa. Ale rýchlosť vo fáze čistenia bola len časťou príbehu: každý dotaz nastolený s partnerom vyvolal kolo back-and-forth e-mailov a online stretnutí, ktoré mohli trvať niekoľko týždňov, najmä keď terénni pracovníci boli stále v teréne a nemohli skontrolovať pôvodné papierové dotazníky.
130 000 riadkov a počítanie
Ďalšou výzvou je skombinovať všetky vyčistené vnútroštátne súbory údajov do jednej hlavnej databázy. Táto databáza, ktorá sa ešte len zostavuje, už obsahuje viac ako 130 000 riadkov. Keď sa tím pokúsil zlúčiť súbor v programe Excel, súbor prekročil hranice pamäte softvéru. Riešenie: najprv previesť všetko do formátu CSV, odstrániť skryté znaky a formátovať vtipy pred pridaním údajov každej krajiny do hlavného súboru jeden po druhom. Navyše, bez rozhrania, ktoré nemusí vykresľovať údaje na obrazovke, šetria v procese tonu pamäte.
Po dokončení sa súbor údajov rozdelí medzi výskumných partnerov CoCo na analýzu v rámci viacerých paralelných pracovných okruhov: typológie poľnohospodárstva a chov hospodárskych zvierat, účinnosť opatrení na prevenciu predátorov, postoje a názory poľnohospodárov na veľké mäsožravce, ich riadenie a ďalšie otázky týkajúce sa správy a experiment výberu, v ktorom sa skúma, ako poľnohospodári zvažujú rôzne možnosti politiky. Stručne povedané, je to empirický základ, na ktorom budú spočívať prípadné politické odporúčania CoCo.
Rozsah záväzku odráža ambície projektu. Koexistencia medzi ľuďmi a veľkými mäsožravcami je jednou z najspornejších otázok európskej politiky ochrany. Správnosť údajov – všetkých 130 000 riadkov – je miestom, kde sa táto práca začína.