Informacja o tłumaczeniu maszynowym

Ta strona została automatycznie przetłumaczona przy użyciu usługi tłumaczenia Komisji Europejskiej (eTranslation). Mimo starannego przetwarzania mogą wystąpić rozbieżności w stosunku do oryginału. Wyłącznie angielska wersja jest prawnie wiążąca.

Hero Image
A livestock guarding dog and a sheep.

1 077 gospodarstw rolnych, 12 krajów, ogromny zbiór danych

Date
Date
Paragraphs
Content

Skala i złożoność ogólnoeuropejskiego badania przeprowadzonego przez CoCo wśród rolników: Rozmowa z badaczami CITA

Co właściwie trzeba zrobić, aby zrozumieć, w jaki sposób rolnicy w całej Europie żyją obok wilków, niedźwiedzi i wilkołaków? W przypadku projektu CoCo rozpoczyna się od kwestionariusza i około 1000 z nich, zebranych z gospodarstw rolnych w 12 krajach i 30 obszarach studiów przypadku. Wypełnienie tych kwestionariuszy było wyczynem samym w sobie. Ale przekształcenie powstałej góry danych w coś, co naukowcy mogą faktycznie przeanalizować? To było zupełnie inne wyzwanie. Rozmawialiśmy z Ana Grau Valenciano, badaczką z CITA Spain, aby dowiedzieć się, jak ten proces naprawdę wygląda.

Pracownicy terenowi zbierali odpowiedzi rolników na papierze podczas ankiety bezpośredniej, która trwała od 1 do 3 godzin, zanim przeniesiono je do standardowych arkuszy Excel, które następnie przesłano na wspólny dysk. Teoretycznie wbudowane ograniczenia formatu zostały zaprojektowane tak, aby zapewnić spójność odpowiedzi. W praktyce zbiór danych obejmujący kilkanaście krajów, wiele języków i ponad 40 ankieterów oraz ponad 1000 rolników zawsze wywoływał niespodzianki.

Zadanie czyszczenia i konsolidacji danych spadło na zespół czterech naukowców z CITA Aragon, hiszpańskiego partnera CoCo. Każdy badacz wziął odpowiedzialność za zestaw krajów, sprawdzając, czy przestrzegano zasad formatowania, czy odpowiedzi miały sens i czy nic nie prześlizgnęło się przez pęknięcia. Wszystkie te dane musiały zostać zidentyfikowane, oznaczone i znormalizowane lub odłożone, aby zapewnić porównywalność ostatecznego zbioru danych we wszystkich 12 krajach.

Brzmi prosto. Jest niczym innym, jak tylko. Pracują nad tym od początku lutego.

Portrait of Eduardo Torres Martinez.
W obliczu tak złożonej i ogromnej bazy danych wprowadzanie danych może stać się monumentalnym zadaniem, w którym naturalnie pojawiają się małe błędy z powodu przytłaczającej ilości informacji. Poprawienie tych drobnych błędów w zapisie jest jednak niezbędne, aby zapewnić rygorystyczną i wiarygodną analizę końcową.
Name
Eduardo Torres Martínez
Position (subline)
Pracownik naukowy CITA Spain
Content

Wyzwania dotyczyły zarówno złożoności europejskiego rolnictwa, jak i przetwarzania danych. W 12 krajach systemy rolnicze znacznie się różnią, a dopasowanie tej różnorodności do znormalizowanych, zamkniętych pytań ankiety nie jest małym zadaniem. Wielu respondentów dodało pisemne komentarze wraz z odpowiedziami, opisując niuanse i lokalne realia, które nie do końca mapowały się na kategoriach kwestionariusza. Na etapie czyszczenia zespół musiał podjąć staranne decyzje dotyczące interpretacji i kodowania tego dodatkowego szczegółu – wywołań osądu, które mogłyby wpłynąć na cały zbiór danych.

Wyzwania techniczne były równie wymagające. Same separatory dziesiętne – przecinek w niektórych krajach, pełny przystanek w innych – spowodowały znaczne niespójności w danych. A precyzja miała ogromne znaczenie: pojedyncza cyfra nieprawidłowa we współrzędnych gospodarstwa rolnego lub pastwiska może umieścić gospodarstwo hiszpańskie gdzieś w Turcji. Tymczasem sekcja kwestionariusza dotycząca incydentów z drapieżnikami wymagała osobnego wiersza dla każdej kombinacji gatunków drapieżników, rodzaju i lokalizacji zwierząt gospodarskich, struktury, która wymagała starannej uwagi, aby upewnić się, że każdy przypadek został poprawnie zarejestrowany i kompletny.

Przed rozpoczęciem czyszczenia zespół spędził około tygodnia na opracowaniu precyzyjnego protokołu, wspólnego zestawu zasad, aby zapewnić, że każdy naukowiec podjął dokładnie te same decyzje w obliczu tej samej sytuacji, uwzględniając pełen zakres wyjątków i przypadków brzegowych, które dane mogą wyrzucać. Dopiero wtedy można było rozpocząć pracę.

Na początku procesu praca nad zbiorem danych jednego kraju – około 100 kwestionariuszy – trwała od jednego pełnego dnia do kilku dni, aby dokonać pierwszej rewizji, a następnie rozpocząć kolejne iteracje z partnerami. Pod koniec zespół był tak dostrojony do wzorców danych każdego partnera, że to samo zadanie można było wykonać w ciągu pół dnia. Ale szybkość w fazie czyszczenia była tylko częścią historii: każde zapytanie skierowane do partnera wywołało rundę e-maili i spotkań online, które mogły trwać kilka tygodni, zwłaszcza gdy pracownicy terenowi byli nadal w terenie i nie byli w stanie sprawdzić oryginalnych papierowych kwestionariuszy.

Content

130 000 wierszy i liczenie

Kolejnym wyzwaniem jest połączenie wszystkich oczyszczonych krajowych zbiorów danych w jedną główną bazę danych. Ta baza danych – nadal w trakcie montażu – zawiera już ponad 130 000 wierszy. Gdy zespół próbował połączyć go w Excelu, plik przekroczył limity pamięci oprogramowania. Rozwiązanie: najpierw konwertuje wszystko na format CSV, usuwa ukryte znaki i dziwactwa formatowania, a następnie dodaje dane każdego kraju do pliku głównego jeden po drugim. Ponadto bez interfejsu, który nie wymaga ´t renderowania danych na ekranie, zapisują w tym procesie mnóstwo pamięci.

Po zakończeniu zbiór danych zostanie podzielony między partnerów badawczych CoCo do celów analizy w kilku równoległych obszarach roboczych: typologie rolnicze i zarządzanie zwierzętami gospodarskimi, skuteczność środków zapobiegania drapieżnikom, postawy i poglądy rolników wobec dużych drapieżników, zarządzanie nimi i inne kwestie związane z zarządzaniem, a także eksperyment wyboru badający, w jaki sposób rolnicy rozważają różne warianty strategiczne. Krótko mówiąc, jest to empiryczna podstawa, na której opierać się będą ewentualne zalecenia polityczne CoCo.

Skala przedsięwzięcia odzwierciedla ambicje projektu. Współistnienie ludzi i dużych drapieżników jest jedną z najbardziej spornych kwestii w europejskiej polityce ochrony przyrody. Prawidłowe pozyskiwanie danych – wszystkie 130 000 wierszy – jest miejscem, w którym rozpoczyna się ta praca.