1 077 gospodarstw rolnych, 12 krajów, ogromny zbiór danych

Skala i złożoność ogólnoeuropejskiego badania przeprowadzonego przez CoCo wśród rolników: Rozmowa z badaczami CITA

Co właściwie trzeba zrobić, aby zrozumieć, w jaki sposób rolnicy w całej Europie żyją obok wilków, niedźwiedzi i wilkołaków? W przypadku projektu CoCo rozpoczyna się od kwestionariusza i około 1000 z nich, zebranych z gospodarstw rolnych w 12 krajach i 30 obszarach studiów przypadku. Wypełnienie tych kwestionariuszy było wyczynem samym w sobie. Ale przekształcenie powstałej góry danych w coś, co naukowcy mogą faktycznie przeanalizować? To było zupełnie inne wyzwanie. Rozmawialiśmy z Ana Grau Valenciano, badaczką z CITA Spain, aby dowiedzieć się, jak ten proces naprawdę wygląda.

Pracownicy terenowi zbierali odpowiedzi rolników na papierze podczas ankiety bezpośredniej, która trwała od 1 do 3 godzin, zanim przeniesiono je do standardowych arkuszy Excel, które następnie przesłano na wspólny dysk. Teoretycznie wbudowane ograniczenia formatu zostały zaprojektowane tak, aby zapewnić spójność odpowiedzi. W praktyce zbiór danych obejmujący kilkanaście krajów, wiele języków i ponad 40 ankieterów oraz ponad 1000 rolników zawsze wywoływał niespodzianki.

Zadanie czyszczenia i konsolidacji danych spadło na zespół czterech naukowców z CITA Aragon, hiszpańskiego partnera CoCo. Każdy badacz wziął odpowiedzialność za zestaw krajów, sprawdzając, czy przestrzegano zasad formatowania, czy odpowiedzi miały sens i czy nic nie prześlizgnęło się przez pęknięcia. Wszystkie te dane musiały zostać zidentyfikowane, oznaczone i znormalizowane lub odłożone, aby zapewnić porównywalność ostatecznego zbioru danych we wszystkich 12 krajach.

Brzmi prosto. Jest niczym innym, jak tylko. Pracują nad tym od początku lutego.

W obliczu tak złożonej i ogromnej bazy danych wprowadzanie danych może stać się monumentalnym zadaniem, w którym naturalnie pojawiają się małe błędy z powodu przytłaczającej ilości informacji. Poprawienie tych drobnych błędów w zapisie jest jednak niezbędne, aby zapewnić rygorystyczną i wiarygodną analizę końcową.

Eduardo Torres Martínez

Pracownik naukowy CITA Spain

Wyzwania dotyczyły zarówno złożoności europejskiego rolnictwa, jak i przetwarzania danych. W 12 krajach systemy rolnicze znacznie się różnią, a dopasowanie tej różnorodności do znormalizowanych, zamkniętych pytań ankiety nie jest małym zadaniem. Wielu respondentów dodało pisemne komentarze wraz z odpowiedziami, opisując niuanse i lokalne realia, które nie do końca mapowały się na kategoriach kwestionariusza. Na etapie czyszczenia zespół musiał podjąć staranne decyzje dotyczące interpretacji i kodowania tego dodatkowego szczegółu – wywołań osądu, które mogłyby wpłynąć na cały zbiór danych.

Wyzwania techniczne były równie wymagające. Same separatory dziesiętne – przecinek w niektórych krajach, pełny przystanek w innych – spowodowały znaczne niespójności w danych. A precyzja miała ogromne znaczenie: pojedyncza cyfra nieprawidłowa we współrzędnych gospodarstwa rolnego lub pastwiska może umieścić gospodarstwo hiszpańskie gdzieś w Turcji. Tymczasem sekcja kwestionariusza dotycząca incydentów z drapieżnikami wymagała osobnego wiersza dla każdej kombinacji gatunków drapieżników, rodzaju i lokalizacji zwierząt gospodarskich, struktury, która wymagała starannej uwagi, aby upewnić się, że każdy przypadek został poprawnie zarejestrowany i kompletny.

Przed rozpoczęciem czyszczenia zespół spędził około tygodnia na opracowaniu precyzyjnego protokołu, wspólnego zestawu zasad, aby zapewnić, że każdy naukowiec podjął dokładnie te same decyzje w obliczu tej samej sytuacji, uwzględniając pełen zakres wyjątków i przypadków brzegowych, które dane mogą wyrzucać. Dopiero wtedy można było rozpocząć pracę.

Na początku procesu praca nad zbiorem danych jednego kraju – około 100 kwestionariuszy – trwała od jednego pełnego dnia do kilku dni, aby dokonać pierwszej rewizji, a następnie rozpocząć kolejne iteracje z partnerami. Pod koniec zespół był tak dostrojony do wzorców danych każdego partnera, że to samo zadanie można było wykonać w ciągu pół dnia. Ale szybkość w fazie czyszczenia była tylko częścią historii: każde zapytanie skierowane do partnera wywołało rundę e-maili i spotkań online, które mogły trwać kilka tygodni, zwłaszcza gdy pracownicy terenowi byli nadal w terenie i nie byli w stanie sprawdzić oryginalnych papierowych kwestionariuszy.

130 000 wierszy i liczenie

Kolejnym wyzwaniem jest połączenie wszystkich oczyszczonych krajowych zbiorów danych w jedną główną bazę danych. Ta baza danych – nadal w trakcie montażu – zawiera już ponad 130 000 wierszy. Gdy zespół próbował połączyć go w Excelu, plik przekroczył limity pamięci oprogramowania. Rozwiązanie: najpierw konwertuje wszystko na format CSV, usuwa ukryte znaki i dziwactwa formatowania, a następnie dodaje dane każdego kraju do pliku głównego jeden po drugim. Ponadto bez interfejsu, który nie wymaga ´t renderowania danych na ekranie, zapisują w tym procesie mnóstwo pamięci.

Po zakończeniu zbiór danych zostanie podzielony między partnerów badawczych CoCo do celów analizy w kilku równoległych obszarach roboczych: typologie rolnicze i zarządzanie zwierzętami gospodarskimi, skuteczność środków zapobiegania drapieżnikom, postawy i poglądy rolników wobec dużych drapieżników, zarządzanie nimi i inne kwestie związane z zarządzaniem, a także eksperyment wyboru badający, w jaki sposób rolnicy rozważają różne warianty strategiczne. Krótko mówiąc, jest to empiryczna podstawa, na której opierać się będą ewentualne zalecenia polityczne CoCo.

Skala przedsięwzięcia odzwierciedla ambicje projektu. Współistnienie ludzi i dużych drapieżników jest jedną z najbardziej spornych kwestii w europejskiej polityce ochrony przyrody. Prawidłowe pozyskiwanie danych – wszystkie 130 000 wierszy – jest miejscem, w którym rozpoczyna się ta praca.