Ειδοποίηση για Μηχανική Μετάφραση

Αυτή η σελίδα έχει μεταφραστεί αυτόματα χρησιμοποιώντας την υπηρεσία μετάφρασης της Ευρωπαϊκής Επιτροπής (eTranslation). Παρά την προσεκτική επεξεργασία, ενδέχεται να υπάρχουν αποκλίσεις από το πρωτότυπο κείμενο. Μόνο η αγγλική πρωτότυπη έκδοση είναι νομικά δεσμευτική.

Hero Image
A livestock guarding dog and a sheep.

1.077 αγροκτήματα, 12 χώρες, ένα τεράστιο σύνολο δεδομένων

Date
Date
Paragraphs
Content

Η κλίμακα και η πολυπλοκότητα της πανευρωπαϊκής έρευνας της CoCo για τους γεωργούς: Μια συζήτηση με τους ερευνητές της CITA

Τι χρειάζεται για να κατανοήσουμε πώς ζουν οι αγρότες σε όλη την Ευρώπη μαζί με τους λύκους, τις αρκούδες και τους αδηφάγους; Για το έργο CoCo, ξεκινά με ένα ερωτηματολόγιο και περίπου 1.000 από αυτά, τα οποία συλλέχθηκαν από γεωργικές εκμεταλλεύσεις σε 12 χώρες και 30 περιοχές περιπτωσιολογικής μελέτης. Η συμπλήρωση αυτών των ερωτηματολογίων ήταν από μόνη της ένα κατόρθωμα. Αλλά μετατρέποντας το προκύπτον βουνό δεδομένων σε κάτι που οι ερευνητές μπορούν πραγματικά να αναλύσουν; Αυτή ήταν μια εντελώς διαφορετική πρόκληση. Μιλήσαμε με την Ana Grau Valenciano, ερευνήτρια της CITA Ισπανίας, για να μάθουμε πώς μοιάζει πραγματικά αυτή η διαδικασία.

Οι εργαζόμενοι στον τομέα συγκέντρωσαν τις απαντήσεις των γεωργών σε χαρτί κατά τη διάρκεια της έρευνας πρόσωπο με πρόσωπο, η οποία διήρκεσε από 1 έως 3 ώρες πριν από τη μεταφορά τους σε τυποποιημένα φύλλα Excel, τα οποία στη συνέχεια μεταφορτώθηκαν σε κοινόχρηστη μονάδα δίσκου. Θεωρητικά, οι ενσωματωμένοι περιορισμοί μορφής σχεδιάστηκαν για να διατηρούν τις απαντήσεις συνεπείς. Στην πράξη, ένα σύνολο δεδομένων που εκτείνεται σε δώδεκα χώρες, πολλαπλές γλώσσες και περισσότερους από 40 συνεντευξιαστές και περισσότερους από 1.000 αγρότες επρόκειτο πάντα να προκαλέσει εκπλήξεις.

Το έργο του καθαρισμού και της ενοποίησης των δεδομένων έχει πέσει σε μια ομάδα τεσσάρων ερευνητών της CITA Aragon, του Ισπανού εταίρου της CoCo. Κάθε ερευνητής ανέλαβε την ευθύνη για ένα σύνολο χωρών, ελέγχοντας ότι οι κανόνες μορφοποίησης είχαν ακολουθηθεί, ότι οι απαντήσεις είχαν νόημα και ότι τίποτα δεν είχε γλιστρήσει μέσα από τις ρωγμές. Όλα αυτά έπρεπε να ταυτοποιηθούν, να επισημανθούν και είτε να τυποποιηθούν είτε να εγκαταλειφθούν, ώστε να διασφαλιστεί ότι το τελικό σύνολο δεδομένων είναι συγκρίσιμο και στις 12 χώρες.

Ακούγεται απλό. Είναι οτιδήποτε άλλο εκτός από αυτό. Εργάζονται πάνω σε αυτό από τις αρχές Φεβρουαρίου.

Portrait of Eduardo Torres Martinez.
Αντιμέτωπη με μια τόσο πολύπλοκη και μαζική βάση δεδομένων, η εισαγωγή δεδομένων μπορεί να γίνει ένα μνημειώδες έργο, όπου μικρά σφάλματα προκύπτουν φυσικά λόγω του συντριπτικού όγκου πληροφοριών. Ωστόσο, η διόρθωση αυτών των μικρών σφαλμάτων καταγραφής είναι απαραίτητη για να διασφαλιστεί ότι η τελική ανάλυση είναι αυστηρή και αξιόπιστη.
Name
Eduardo Torres Martínez
Position (subline)
Ερευνητής στο CITA Ισπανίας
Content

Οι προκλήσεις αφορούσαν τόσο την πολυπλοκότητα της ευρωπαϊκής γεωργίας όσο και την επεξεργασία δεδομένων. Σε 12 χώρες, τα γεωργικά συστήματα ποικίλλουν σε μεγάλο βαθμό και η προσαρμογή αυτής της ποικιλομορφίας στις τυποποιημένες, κλειστές ερωτήσεις μιας έρευνας δεν είναι μικρό έργο. Πολλοί ερωτηθέντες πρόσθεσαν γραπτά σχόλια μαζί με τις απαντήσεις τους, περιγράφοντας αποχρώσεις και τοπικές πραγματικότητες που δεν αντιστοιχούσαν στις κατηγορίες του ερωτηματολογίου. Στο στάδιο του καθαρισμού, η ομάδα έπρεπε να λάβει προσεκτικές αποφάσεις σχετικά με τον τρόπο ερμηνείας και κωδικοποίησης αυτής της πρόσθετης λεπτομέρειας —κλήσεις κρίσης που θα μπορούσαν να επηρεάσουν ολόκληρο το σύνολο δεδομένων.

Οι τεχνικές προκλήσεις ήταν εξίσου απαιτητικές. Μόνο οι δεκαδικοί διαχωριστές —ένα κόμμα σε ορισμένες χώρες, μια τελεία σε άλλες— δημιούργησαν σημαντικές ασυνέπειες μεταξύ των δεδομένων. Και η ακρίβεια είχε τεράστια σημασία: ένα μονοψήφιο λάθος στις συντεταγμένες ενός αγροκτήματος ή βοσκότοπου θα μπορούσε να τοποθετήσει ένα ισπανικό αγρόκτημα κάπου στην Τουρκία. Εν τω μεταξύ, η ενότητα του ερωτηματολογίου σχετικά με τα περιστατικά θηρευτών απαιτούσε μια ξεχωριστή σειρά για κάθε συνδυασμό ειδών θηρευτών, τύπου ζωικού κεφαλαίου και τοποθεσίας, μια δομή που απαιτούσε προσεκτική προσοχή για να διασφαλιστεί ότι κάθε περίπτωση καταγράφηκε σωστά και ολοκληρώθηκε.

Πριν καν ξεκινήσει ο καθαρισμός, η ομάδα πέρασε περίπου μια εβδομάδα αναπτύσσοντας ένα ακριβές πρωτόκολλο, ένα κοινό σύνολο κανόνων για να διασφαλίσει ότι κάθε ερευνητής λαμβάνει ακριβώς τις ίδιες αποφάσεις όταν αντιμετωπίζει την ίδια κατάσταση, λαμβάνοντας υπόψη το πλήρες φάσμα των εξαιρέσεων και των περιπτώσεων παρυφών που μπορεί να εμφανίσουν τα δεδομένα. Μόνο τότε θα μπορούσε να ξεκινήσει το ίδιο το έργο.

Κατά την έναρξη της διαδικασίας, η επεξεργασία ενός συνόλου δεδομένων μιας μόνο χώρας —περίπου 100 ερωτηματολόγια— διήρκεσε από μία ολόκληρη ημέρα έως δύο ημέρες για μια πρώτη αναθεώρηση και, στη συνέχεια, ξεκίνησε τις διαδοχικές επαναλήψεις με τους εταίρους. Στο τέλος, η ομάδα είχε προσαρμοστεί τόσο πολύ στα πρότυπα των δεδομένων κάθε εταίρου ώστε η ίδια εργασία μπορούσε να εκτελεστεί σε μισή ημέρα. Αλλά η ταχύτητα στη φάση καθαρισμού ήταν μόνο ένα μέρος της ιστορίας: κάθε ερώτημα που τέθηκε σε έναν εταίρο πυροδότησε έναν γύρο ηλεκτρονικών μηνυμάτων και διαδικτυακών συναντήσεων που θα μπορούσαν να διαρκέσουν εβδομάδες, ιδίως όταν οι εργαζόμενοι στον τομέα ήταν ακόμα έξω στον τομέα και δεν ήταν σε θέση να ελέγξουν τα πρωτότυπα έντυπα ερωτηματολόγια.

Content

130.000 σειρές και καταμέτρηση

Η επόμενη πρόκληση είναι ο συνδυασμός όλων των καθαρισμένων εθνικών συνόλων δεδομένων σε μια ενιαία κύρια βάση δεδομένων. Η εν λόγω βάση δεδομένων —η οποία εξακολουθεί να συναρμολογείται— περιέχει ήδη περισσότερες από 130 000 σειρές. Όταν η ομάδα επιχείρησε να το συγχωνεύσει στο Excel, το αρχείο υπερέβη τα όρια μνήμης του λογισμικού. Η λύση: μετατροπή των πάντων σε μορφότυπο CSV πρώτα, αφαίρεση κρυφών χαρακτήρων και ιδιορρυθμιών μορφοποίησης, πριν από την προσθήκη των δεδομένων κάθε χώρας στο κύριο αρχείο ένα προς ένα. Επιπλέον, χωρίς διεπαφή που δεν χρειάζεται´t για την απόδοση των δεδομένων σε μια οθόνη, εξοικονομούν έναν τόνο μνήμης κατά τη διαδικασία.

Μόλις ολοκληρωθεί, το σύνολο δεδομένων θα κατανεμηθεί μεταξύ των ερευνητικών εταίρων της CoCo για ανάλυση σε διάφορους παράλληλους άξονες εργασίας: τις γεωργικές τυπολογίες και τη διαχείριση του ζωικού κεφαλαίου, την αποτελεσματικότητα των μέτρων πρόληψης των θηρευτών, τη στάση και τις απόψεις των γεωργών έναντι των μεγάλων σαρκοφάγων, τη διαχείρισή τους και άλλα ζητήματα διακυβέρνησης, καθώς και ένα πείραμα επιλογής που διερευνά τον τρόπο με τον οποίο οι γεωργοί σταθμίζουν τις διάφορες επιλογές πολιτικής. Εν ολίγοις, αποτελεί την εμπειρική βάση επί της οποίας θα στηριχθούν οι ενδεχόμενες συστάσεις πολιτικής της CoCo.

Η κλίμακα της ανάληψης υποχρέωσης αντικατοπτρίζει τη φιλοδοξία του έργου. Η συνύπαρξη ανθρώπων και μεγάλων σαρκοφάγων είναι ένα από τα πιο αμφισβητούμενα ζητήματα στην ευρωπαϊκή πολιτική διατήρησης. Η σωστή λήψη των δεδομένων —και οι 130.000 σειρές τους— είναι το σημείο στο οποίο αρχίζει η εργασία αυτή.