1 077 fermes, 12 pays, un ensemble de données énorme

L’ampleur et la complexité de l’enquête paneuropéenne de CoCo auprès des agriculteurs: Une conversation avec les chercheurs du CITA

Que faut-il réellement pour comprendre comment les agriculteurs de toute l'Europe vivent aux côtés des loups, des ours et du carcajou? Pour le projet CoCo, il commence par un questionnaire et environ 1 000 d'entre eux, collectés auprès d'exploitations agricoles dans 12 pays et 30 zones d'étude de cas. Obtenir ces questionnaires remplis était un exploit en soi. Mais transformer la montagne de données qui en résulte en quelque chose que les chercheurs peuvent réellement analyser? Il s'agit là d'un tout autre défi. Nous avons parlé à Ana Grau Valenciano, chercheuse au CITA Espagne, pour savoir à quoi ressemble réellement ce processus.

Les travailleurs de terrain ont recueilli les réponses des agriculteurs sur papier au cours de l'enquête en face à face qui a duré entre 1 et 3 heures avant de les transférer dans des feuilles Excel standardisées, qui ont ensuite été téléchargées sur un lecteur partagé. En théorie, les contraintes de format intégrées ont été conçues pour garder les réponses cohérentes. Dans la pratique, un ensemble de données couvrant une douzaine de pays, plusieurs langues et plus de 40 intervieweurs et plus de 1 000 agriculteurs allait toujours créer des surprises.

Le travail de nettoyage et de consolidation des données a été confié à une équipe de quatre chercheurs de CITA Aragon, le partenaire espagnol de CoCo. Chaque chercheur a pris la responsabilité d'un ensemble de pays, en vérifiant que les règles de formatage avaient été suivies, que les réponses avaient du sens et que rien n'avait glissé entre les mailles du filet. Tous ces éléments ont dû être identifiés, signalés et normalisés ou mis de côté, afin de garantir la comparabilité de l’ensemble de données final dans l’ensemble des 12 pays.

Ça a l'air simple. C'est tout sauf. Ils y travaillent depuis début février.

Face à une base de données aussi complexe et massive, la saisie de données peut devenir une tâche monumentale, où de petites erreurs surviennent naturellement en raison du volume écrasant d'informations. Cependant, la correction de ces erreurs d'enregistrement mineures est essentielle pour s'assurer que l'analyse finale est rigoureuse et fiable.

Eduardo Torres Martínez

Chercheur au CITA Espagne

Les défis portaient autant sur la complexité de l'agriculture européenne que sur le traitement des données. Dans 12 pays, les systèmes agricoles varient énormément, et intégrer cette diversité dans les questions standardisées et fermées d'une enquête n'est pas une mince tâche. De nombreux répondants ont ajouté des commentaires écrits à leurs réponses, décrivant des nuances et des réalités locales qui ne correspondaient pas tout à fait aux catégories du questionnaire. Au stade du nettoyage, l’équipe a dû prendre des décisions prudentes sur la manière d’interpréter et de coder ces détails supplémentaires – des appels de jugement qui pourraient affecter l’ensemble des données.

Les défis techniques étaient tout aussi exigeants. Les séparateurs décimaux seuls – une virgule dans certains pays, un arrêt complet dans d’autres – ont créé d’importantes incohérences entre les données. Et la précision importait énormément: un seul chiffre erroné dans les coordonnées d'une ferme ou d'un pâturage pourrait placer une ferme espagnole quelque part en Turquie. Pendant ce temps, la section du questionnaire sur les incidents de prédateurs exigeait une ligne distincte pour chaque combinaison d'espèces de prédateurs, de type de bétail et d'emplacement, une structure qui exigeait une attention minutieuse pour s'assurer que chaque cas était correctement enregistré et complet.

Avant même que le nettoyage puisse commencer, l'équipe a passé environ une semaine à développer un protocole précis, un ensemble commun de règles pour s'assurer que chaque chercheur prenne exactement les mêmes décisions lorsqu'il est confronté à la même situation, en tenant compte de la gamme complète des exceptions et des cas périphériques que les données pourraient générer. Ce n'est qu'alors que le travail lui-même pourrait commencer.

Au début du processus, le traitement de l’ensemble de données d’un seul pays – environ 100 questionnaires – a pris d’une journée complète à quelques jours pour une première révision, puis a commencé les itérations aller-retour avec les partenaires. À la fin, l’équipe s’était tellement adaptée aux caractéristiques des données de chaque partenaire que la même tâche pouvait être effectuée en une demi-journée. Mais la vitesse dans la phase de nettoyage n'était qu'une partie de l'histoire: chaque question soulevée avec un partenaire a déclenché une série de courriels aller-retour et de réunions en ligne qui pouvaient durer des semaines, en particulier lorsque les travailleurs sur le terrain étaient toujours sur le terrain et incapables de vérifier les questionnaires papier originaux.

130 000 lignes et comptage

Le prochain défi consiste à regrouper tous les ensembles de données nationaux nettoyés en une seule base de données principale. Cette base de données – toujours en cours d’assemblage – contient déjà plus de 130 000 lignes. Lorsque l’équipe a tenté de le fusionner dans Excel, le fichier a dépassé les limites de mémoire du logiciel. La solution: tout d’abord convertir au format CSV, en supprimant les caractères cachés et en formatant les bizarreries, avant d’ajouter les données de chaque pays au fichier maître un par un. De plus, sans interface qui n’a pas besoin de rendre les données dans un écran, ils économisent une tonne de mémoire dans le processus.

Une fois achevé, l’ensemble de données sera réparti entre les partenaires de recherche de la CoCo aux fins d’analyse sur plusieurs axes de travail parallèles: les typologies agricoles et la gestion du bétail, l’efficacité des mesures de prévention des prédateurs, les attitudes et les points de vue des agriculteurs à l’égard des grands carnivores, sa gestion et d’autres questions de gouvernance, ainsi qu’une expérience de choix explorant la manière dont les agriculteurs évaluent les différentes options stratégiques. C’est, en bref, le fondement empirique sur lequel reposeront les éventuelles recommandations stratégiques de la CoCo.

L'ampleur de l'entreprise reflète l'ambition du projet. La coexistence entre les personnes et les grands carnivores est l'une des questions les plus contestées de la politique européenne de conservation. L’exactitude des données – toutes les 130 000 lignes – est le point de départ de ce travail.