1.077 Ferme, 12 țări, Un set de date uriaș

Amploarea și complexitatea sondajului paneuropean realizat de CoCo în rândul fermierilor: O conversație cu cercetătorii CITA

De ce este nevoie pentru a înțelege modul în care fermierii din întreaga Europă trăiesc alături de lupi, urși și lupi? Pentru proiectul CoCo, acesta începe cu un chestionar și aproximativ 1 000 dintre acestea, colectate de la ferme din 12 țări și 30 de domenii de studiu de caz. Completarea acestor chestionare a fost o realizare în sine. Dar transformarea muntelui de date rezultate în ceva ce cercetătorii pot analiza de fapt? Aceasta a fost o cu totul altă provocare. Am vorbit cu Ana Grau Valenciano, cercetător la CITA Spania, pentru a afla cum arată de fapt acest proces.

Lucrătorii de pe teren au colectat răspunsurile fermierilor pe suport de hârtie în timpul sondajului față în față, care a durat între 1 și 3 ore, înainte de a le transfera în foi Excel standardizate, care au fost apoi încărcate pe o unitate partajată. În teorie, constrângerile de format încorporate au fost concepute pentru a menține răspunsurile consecvente. În practică, un set de date care acoperă o duzină de țări, mai multe limbi și mai mult de 40 de intervievatori și mai mult de 1.000 de fermieri au fost întotdeauna de gând să arunce surprize.

Sarcina de curățare și consolidare a datelor a revenit unei echipe de patru cercetători de la CITA Aragon, partenerul spaniol al CoCo. Fiecare cercetător și-a asumat responsabilitatea pentru un set de țări, verificând că regulile de formatare au fost respectate, că răspunsurile au sens și că nimic nu a alunecat prin fisuri. Toate acestea au trebuit să fie identificate, marcate și fie standardizate, fie puse deoparte, pentru a se asigura că setul final de date este comparabil în toate cele 12 țări.

Sună simplu. Nu este nimic altceva decât. Lucrează la el de la începutul lunii februarie.

Confruntată cu o bază de date atât de complexă și masivă, introducerea datelor poate deveni o sarcină monumentală, în care apar în mod natural mici erori din cauza volumului copleșitor de informații. Cu toate acestea, corectarea acestor erori minore de înregistrare este esențială pentru a se asigura că analiza finală este riguroasă și fiabilă.

Eduardo Torres Martínez

Cercetător la CITA Spania

Provocările s-au referit atât la complexitatea agriculturii europene, cât și la prelucrarea datelor. În 12 țări, sistemele agricole variază enorm, iar încadrarea acestei diversități în întrebările standardizate și complete ale unui sondaj nu este o sarcină mică. Mulți respondenți au adăugat comentarii scrise alături de răspunsurile lor, descriind nuanțe și realități locale care nu s-au încadrat în categoriile chestionarului. În etapa de curățare, echipa a trebuit să ia decizii atente cu privire la modul de interpretare și codificare a acestui detaliu suplimentar – apeluri de judecată care ar putea afecta întregul set de date.

Provocările tehnice au fost la fel de solicitante. Numai separatorii zecimali – o virgulă în unele țări, o oprire completă în altele – au creat inconsecvențe semnificative între date. Precizia a contat enorm: o singură cifră greșită în coordonatele unei ferme sau ale unui teren de pășunat ar putea plasa o fermă spaniolă undeva în Turcia. Între timp, secțiunea chestionarului privind incidentele prădătorilor a necesitat un rând separat pentru fiecare combinație de specii de prădători, tip de șeptel și locație, o structură care a necesitat o atenție deosebită pentru a se asigura că fiecare caz a fost înregistrat corect și complet.

Înainte ca curățarea să poată începe, echipa a petrecut aproximativ o săptămână dezvoltând un protocol precis, un set comun de reguli pentru a se asigura că fiecare cercetător a luat exact aceleași decizii atunci când se confruntă cu aceeași situație, ținând cont de întreaga gamă de excepții și cazuri de margine pe care datele le-ar putea arunca. Numai atunci ar putea începe lucrarea în sine.

La începutul procesului, prelucrarea setului de date al unei singure țări – aproximativ 100 de chestionare – a durat de la o zi întreagă până la câteva zile pentru o primă revizuire, apoi a început iterațiile retrospective cu partenerii. Până la sfârșit, echipa a devenit atât de adaptată la tiparele datelor fiecărui partener, încât aceeași sarcină putea fi îndeplinită în jumătate de zi. Dar viteza în faza de curățare a fost doar o parte din poveste: fiecare interogare adresată unui partener a declanșat o rundă de e-mailuri de tip „back-and-forth” și de reuniuni online care s-ar putea întinde pe mai multe săptămâni, în special atunci când lucrătorii de pe teren erau încă pe teren și nu puteau verifica chestionarele originale pe suport de hârtie.

130.000 de rânduri și numărare

Următoarea provocare este combinarea tuturor seturilor de date naționale curățate într-o singură bază de date principală. Această bază de date, care este încă în curs de asamblare, conține deja peste 130 000 de rânduri. Atunci când echipa a încercat să îl fuzioneze în Excel, fișierul depășea limitele de memorie ale software-ului. Soluția: conversia tuturor elementelor în format CSV mai întâi, eliminarea caracterelor ascunse și formatarea ciudățeniilor, înainte de a adăuga datele fiecărei țări la fișierul standard, unul câte unul. În plus, fără o interfață care nu necesită ´t pentru a reda datele într-un ecran, acestea salvează o tonă de memorie în acest proces.

Odată finalizat, setul de date va fi împărțit între partenerii de cercetare ai CoCo pentru analiză în mai multe fluxuri de lucru paralele: tipologiile agricole și gestionarea efectivelor de animale, eficacitatea măsurilor de prevenire a prădătorilor, atitudinile și opiniile fermierilor față de carnivorele mari, gestionarea acestora și alte aspecte legate de guvernanță, precum și un experiment de alegere care să exploreze modul în care fermierii cântăresc diferitele opțiuni de politică. Pe scurt, acesta este fundamentul empiric pe care se vor baza eventualele recomandări de politică ale CoCo.

Amploarea întreprinderii reflectă ambiția proiectului. Coexistența dintre oameni și carnivorele mari este una dintre cele mai contestate probleme ale politicii europene de conservare. Obținerea datelor corecte – toate cele 130 000 de rânduri – este locul în care începe activitatea.