1.077 aziende agricole, 12 paesi, Un enorme set di dati

La portata e la complessità dell'indagine paneuropea sugli agricoltori condotta dal CoCo: Una conversazione con i ricercatori CITA

Cosa serve per capire come gli agricoltori di tutta Europa vivono al fianco di lupi, orsi e ghiottoni? Per il progetto CoCo, inizia con un questionario e circa 1.000 di loro, raccolti da aziende agricole in 12 paesi e 30 aree di studio di casi. Ottenere quei questionari compilati era un'impresa in sé. Ma trasformare la montagna di dati risultante in qualcosa che i ricercatori possono effettivamente analizzare? Questa è stata una sfida completamente diversa. Abbiamo parlato con Ana Grau Valenciano, ricercatrice di CITA Spagna, per scoprire come appare effettivamente quel processo.

Gli operatori sul campo hanno raccolto le risposte degli agricoltori su carta durante l'indagine faccia a faccia che è durata da 1 a 3 ore prima di trasferirle in fogli Excel standardizzati, che sono stati poi caricati su un'unità condivisa. In teoria, i vincoli di formato incorporati sono stati progettati per mantenere le risposte coerenti. In pratica, un set di dati che copre una dozzina di paesi, più lingue e più di 40 intervistatori e più di 1.000 agricoltori avrebbe sempre suscitato sorprese.

Il lavoro di pulizia e consolidamento dei dati è ricaduto su un team di quattro ricercatori di CITA Aragon, il partner spagnolo di CoCo. Ogni ricercatore si è assunto la responsabilità di un insieme di paesi, verificando che le regole di formattazione fossero state seguite, che le risposte avessero senso e che nulla fosse scivolato attraverso le crepe. Tutto ciò ha dovuto essere identificato, segnalato e standardizzato o accantonato, per garantire che la serie di dati finale fosse comparabile in tutti e 12 i paesi.

Sembra semplice. E' tutt'altro. Ci stanno lavorando dall'inizio di febbraio.

Di fronte a un database così complesso e massiccio, l'inserimento dei dati può diventare un compito monumentale, in cui nascono naturalmente piccoli errori a causa del travolgente volume di informazioni. Tuttavia, correggere questi piccoli errori di registrazione è essenziale per garantire che l'analisi finale sia rigorosa e affidabile.

Eduardo Torres Martínez

Ricercatore presso CITA Spagna

Le sfide riguardavano tanto la complessità dell'agricoltura europea quanto l'elaborazione dei dati. In 12 paesi, i sistemi agricoli variano enormemente e inserire la diversità nelle domande standardizzate e chiuse di un'indagine non è un compito da poco. Molti intervistati hanno aggiunto commenti scritti accanto alle loro risposte, descrivendo sfumature e realtà locali che non hanno mappato le categorie del questionario. Nella fase di pulizia, il team ha dovuto prendere decisioni attente su come interpretare e codificare tali dettagli aggiuntivi: chiamate di giudizio che potrebbero influenzare l'intero set di dati.

Le sfide tecniche erano altrettanto impegnative. Solo i separatori decimali – una virgola in alcuni paesi, un punto fermo in altri – hanno creato incongruenze significative tra i dati. E la precisione contava enormemente: una singola cifra errata nelle coordinate di un'azienda agricola o di un pascolo potrebbe collocare un'azienda agricola spagnola da qualche parte in Turchia. Nel frattempo, la sezione del questionario sugli incidenti dei predatori richiedeva una riga separata per ogni combinazione di specie predatori, tipo di bestiame e posizione, una struttura che richiedeva un'attenzione scrupolosa per garantire che ogni caso fosse correttamente registrato e completo.

Prima ancora che la pulizia potesse iniziare, il team ha trascorso circa una settimana a sviluppare un protocollo preciso, un insieme condiviso di regole per garantire che ogni ricercatore prendesse esattamente le stesse decisioni di fronte alla stessa situazione, tenendo conto dell'intera gamma di eccezioni e casi limite che i dati potrebbero vomitare. Solo allora poteva iniziare il lavoro stesso.

All'inizio del processo, il lavoro attraverso la serie di dati di un singolo paese – circa 100 questionari – è durato da un giorno intero a un paio di giorni per una prima revisione, per poi iniziare le iterazioni avanti e indietro con i partner. Alla fine, la squadra era diventata così in sintonia con i modelli dei dati di ciascun partner che lo stesso compito poteva essere svolto in mezza giornata. Ma la velocità nella fase di pulizia era solo una parte della storia: ogni domanda sollevata con un partner ha innescato un ciclo di e-mail e riunioni online che potrebbero protrarsi per settimane, in particolare quando i lavoratori sul campo erano ancora sul campo e non erano in grado di controllare i questionari cartacei originali.

130.000 righe e conteggio

La prossima sfida è combinare tutti i set di dati nazionali puliti in un unico database principale. Tale banca dati, ancora in fase di assemblaggio, contiene già oltre 130 000 righe. Quando il team ha tentato di unirlo in Excel, il file ha superato i limiti di memoria del software. La soluzione: prima convertendo tutto in formato CSV, eliminando i caratteri nascosti e formattando le stranezze, prima di aggiungere i dati di ciascun paese al file master uno per uno. Inoltre, senza un'interfaccia che non richiede il rendering dei dati in uno schermo, ´t risparmia una tonnellata di memoria nel processo.

Una volta completata, la serie di dati sarà suddivisa tra i partner di ricerca del CoCo per l'analisi in diversi filoni di lavoro paralleli: le tipologie agricole e la gestione del bestiame, l'efficacia delle misure di prevenzione dei predatori, gli atteggiamenti e le opinioni degli agricoltori nei confronti dei grandi carnivori, la sua gestione e altre questioni di governance e un esperimento di scelta che esplora il modo in cui gli agricoltori valutano le diverse opzioni politiche. Si tratta, in breve, del fondamento empirico su cui si baseranno le eventuali raccomandazioni politiche del CoCo.

La portata dell'impegno riflette l'ambizione del progetto. La coesistenza tra le persone e i grandi carnivori è una delle questioni più controverse nella politica europea di conservazione. Ottenere i dati corretti (tutte le 130 000 righe) è il punto in cui inizia il lavoro.