1,077 Granjas, 12 Países, Un enorme conjunto de datos

La escala y complejidad detrás de la encuesta paneuropea de agricultores del CoCo: Una conversación con investigadores del CITA

¿Qué se necesita realmente para entender cómo los agricultores de toda Europa viven junto a lobos, osos y lobos? Para el proyecto CoCo, comienza con un cuestionario y aproximadamente 1,000 de ellos, recolectados de granjas en 12 países y 30 áreas de estudio de casos. Rellenar esos cuestionarios fue una hazaña en sí misma. Pero, ¿convertir la montaña de datos resultante en algo que los investigadores puedan analizar realmente? Ese ha sido un desafío completamente diferente. Hablamos con Ana Grau Valenciano, investigadora de CITA España, para averiguar cómo es realmente ese proceso.

Los trabajadores de campo recogieron las respuestas de los agricultores en papel durante la encuesta cara a cara que duró entre 1 y 3 horas antes de transferirlas a hojas de Excel estandarizadas, que luego se cargaron en una unidad compartida. En teoría, las restricciones de formato incorporadas fueron diseñadas para mantener las respuestas consistentes. En la práctica, un conjunto de datos que abarcaba una docena de países, múltiples idiomas y más de 40 entrevistadores y más de 1.000 agricultores siempre iba a arrojar sorpresas.

El trabajo de limpieza y consolidación de los datos ha recaído en un equipo de cuatro investigadores de CITA Aragón, el socio español de CoCo. Cada investigador asumió la responsabilidad de un conjunto de países, comprobando que se habían seguido las reglas de formato, que las respuestas tenían sentido y que nada se había escapado por las grietas. Todo esto tuvo que ser identificado, marcado y estandarizado o reservado, para garantizar que el conjunto de datos final sea comparable en los 12 países.

Suena sencillo. Es cualquier cosa menos eso. Han estado trabajando en ello desde principios de febrero.

Frente a una base de datos tan compleja y masiva, la entrada de datos puede convertirse en una tarea monumental, donde surgen naturalmente pequeños errores debido al abrumador volumen de información. Sin embargo, corregir estos pequeños errores de registro es esencial para garantizar que el análisis final sea riguroso y confiable.

Eduardo Torres Martínez

Investigador en CITA España

Los retos se referían tanto a la complejidad de la agricultura europea como al tratamiento de datos. En 12 países, los sistemas agrícolas varían enormemente, y adaptar esa diversidad a las preguntas estandarizadas y cerradas de una encuesta no es tarea fácil. Muchos encuestados agregaron comentarios escritos junto con sus respuestas, describiendo matices y realidades locales que no encajaban en las categorías del cuestionario. En la fase de limpieza, el equipo tuvo que tomar decisiones cuidadosas sobre cómo interpretar y codificar ese detalle adicional, llamadas de juicio que podrían afectar a todo el conjunto de datos.

Los desafíos técnicos eran igualmente exigentes. Los separadores decimales por sí solos —una coma en algunos países y una parada completa en otros— crearon incoherencias significativas entre los datos. Y la precisión importaba enormemente: Un solo dígito incorrecto en las coordenadas de una granja o tierra de pastoreo podría colocar una granja española en algún lugar de Turquía. Mientras tanto, la sección del cuestionario sobre incidentes de depredadores requería una fila separada para cada combinación de especies de depredadores, tipo de ganado y ubicación, una estructura que exigía una cuidadosa atención para garantizar que cada caso se registrara y completara correctamente.

Antes de que la limpieza pudiera comenzar, el equipo pasó alrededor de una semana desarrollando un protocolo preciso, un conjunto compartido de reglas para garantizar que cada investigador tomara exactamente las mismas decisiones cuando se enfrentara a la misma situación, teniendo en cuenta toda la gama de excepciones y casos extremos que los datos podrían arrojar. Solo entonces podría comenzar el trabajo en sí.

Al inicio del proceso, el trabajo a través del conjunto de datos de un solo país (alrededor de 100 cuestionarios) tomó de un día completo a un par de días para una primera revisión, y luego comenzó las iteraciones de ida y vuelta con los socios. Al final, el equipo se había adaptado tanto a los patrones de los datos de cada socio que la misma tarea podría realizarse en medio día. Pero la velocidad en la fase de limpieza fue solo una parte de la historia: cada consulta planteada con un socio desencadenó una ronda de correos electrónicos de ida y vuelta y reuniones en línea que podrían extenderse durante semanas, especialmente cuando los trabajadores de campo todavía estaban en el campo y no podían verificar los cuestionarios originales en papel.

130.000 filas y contando

El siguiente desafío es combinar todos los conjuntos de datos nacionales limpios en una sola base de datos maestra. Esta base de datos, aún en fase de montaje, ya contiene más de 130 000 filas. Cuando el equipo intentó fusionarlo en Excel, el archivo superó los límites de memoria del software. La solución: convertir todo al formato CSV en primer lugar, eliminando los caracteres ocultos y las peculiaridades del formato, antes de añadir los datos de cada país al archivo maestro uno por uno. Además, sin una interfaz que no necesite ´ para renderizar los datos en una pantalla, están ahorrando una tonelada de memoria en el proceso.

Una vez completado, el conjunto de datos se dividirá entre los socios de investigación del CoCo para su análisis en varias líneas de trabajo paralelas: las tipologías agrícolas y la gestión ganadera, la eficacia de las medidas de prevención de depredadores, las actitudes y opiniones de los agricultores hacia los grandes carnívoros, su gestión y otras cuestiones de gobernanza, y un experimento de elección en el que se explora cómo los agricultores sopesan las diferentes opciones políticas. En resumen, es la base empírica sobre la que se basarán las eventuales recomendaciones políticas del CoCo.

La escala de la empresa refleja la ambición del proyecto. La coexistencia entre las personas y los grandes carnívoros es uno de los temas más controvertidos en la política europea de conservación. Conseguir los datos correctos —las 130 000 filas— es donde comienza ese trabajo.