Από το Open Knowledge International
Αυτή η ανάρτηση είναι μέρος του Global Open Data Blog. Είναι ένα κάλεσμα να επαναπροσδιορίσουμε την προσοχή μας στα πολλά διαφορετικά στοιχεία που συμβάλλουν στην «καλή ποιότητα» των ανοικτών δεδομένων, στις ανταλλαγές μεταξύ τους και στον τρόπο με τον οποίο υποστηρίζουν τη χρηστικότητα των δεδομένων (βλ. εδώ μερικά σημαντικά έργα του World Wide Web Consortium). Η εστίαση σε αυτά τα στοιχεία θα μπορούσε να βοηθήσει τις κυβερνήσεις να δημοσιεύσουν δεδομένα που μπορούν εύκολα να χρησιμοποιηθούν. Η δημοσίευση στο blog γράφτηκε από κοινού από τους Danny Lämmerhirt και Mor Rubinstein.
Πριν από μερικά χρόνια, τα ανοικτά δεδομένα προωθήθηκαν για να ξεκλειδώσουν πληροφορίες στο κοινό, οι οποίες διαφορετικά θα παρέμειναν κλειστές. Στην προ-ψηφιακή εποχή, οι πληροφορίες ήταν κλειδωμένες, και μια σειρά μηχανισμών ήταν απαραίτητη για να γεφυρωθεί το χάσμα της γνώσης μεταξύ ιδρυμάτων και ανθρώπων. Έτσι, όταν η κίνηση ανοικτών δεδομένων απαιτούσε “Openness By Default”, πολλοί εκδότες δεδομένων ακολούθησαν το κάλεσμα, απελευθερώνοντας τεράστια ποσά δεδομένων στην υπάρχουσα μορφή τους για να γεφυρώσουν αυτό το κενό.
Μέχρι σήμερα, φαίνεται ότι το άνοιγμα αυτών των δεδομένων δεν έχει μειώσει αλλά μάλλον μετατόπισε και πολλαπλασίασε τα εμπόδια στη χρήση των δεδομένων, όπως δείχνει η έρευνα του Open Knowledge International γύρω από το Global Open Data Index (GODI) 2016/17. Μαζί με εμπειρογνώμονες σε θέματα δεδομένων και δίκτυο εθελοντών, η ομάδα μας έψαξε, βρήκε πρόσβαση και επαλήθευσε περισσότερα από 1400 κυβερνητικά σύνολα δεδομένων σε όλο τον κόσμο.
Διαπιστώσαμε ότι τα δεδομένα αποθηκεύονται συχνά σε πολλά διαφορετικά μέρη του ιστού, μερικές φορές χωρίζονται σε έγγραφα ή αποκρύπτονται πολλές σελίδες βαθιά σε έναν ιστότοπο. Συχνά τα δεδομένα έρχονται σε διάφορες μορφές πρόσβασης. Μπορεί να παρουσιάζονται σε διάφορες μορφές και μορφές αρχείων, μερικές φορές χρησιμοποιώντας ασυνήθιστα σημάδια ή κώδικες που στη χειρότερη περίπτωση είναι κατανοητά μόνο από τον παραγωγό τους.
Όπως αναφέρει το Open Data Handbook, αυτές οι αναδυόμενες υποδομές ανοικτών δεδομένων μοιάζουν με τον μύθο του «Πύργου της Βαβέλ»: παράγονται περισσότερες πληροφορίες, αλλά κωδικοποιούνται σε διάφορες γλώσσες και μορφές, εμποδίζοντας τους εκδότες δεδομένων και τους πολίτες τους να επικοινωνούν μεταξύ τους. Τι κάνει τα δεδομένα να μπορούν να χρησιμοποιηθούν υπό αυτές τις συνθήκες; Πώς μπορούμε να κλείσουμε τον βρόχο της αλυσίδας πληροφοριών; Η σύντομη απάντηση: παρέχοντας ανοικτά δεδομένα «καλής ποιότητας».
Κατανοώντας την ποιότητα των δεδομένων – από την ποιότητα στις ιδιότητες
Η κοινότητα ανοικτών δεδομένων πρέπει να στρέψει την εστίαση από τη δημοσίευση μαζικών δεδομένων σε μια κατανόηση της καλής ποιότητας των δεδομένων. Ακόμη δεν υπάρχει κοινός ορισμός ποια είναι η ποιότητα των «καλών» δεδομένων.
Η έρευνα δείχνει ότι υπάρχουν πολλές διαφορετικές ερμηνείες και τρόποι μέτρησης της ποιότητας των δεδομένων. Περιλαμβάνουν τη δυνατότητα ερμηνείας των δεδομένων, την ακρίβεια των δεδομένων, την έγκαιρη δημοσίευση, την εμπιστοσύνη, την αξιοπιστία, την προσβασιμότητα, την ικανότητα ανίχνευσης, τη δυνατότητα επεξεργασίας ή την πληρότητα. Δεδομένου ότι οι χρήστες χρησιμοποιούν δεδομένα για διαφορετικούς σκοπούς, ορισμένες ιδιότητες δεδομένων έχουν μεγαλύτερη σημασία για μια ομάδα χρηστών από άλλες. Ορισμένοι από αυτούς τους τομείς καλύπτονται από το Open Data Charter, αλλά το Charter δεν τις χαρακτηρίζει ρητά ως «ιδιότητες» που συνοψίζονται σε υψηλή ποιότητα. Οι τρέχοντες δείκτες ποιότητας δεν είναι πλήρεις – και χάνουν την ευκαιρία να επισημάνουμε την ποιότητα των συμβιβασμών.
Επίσης, οι υπάρχοντες δείκτες αξιολογούν την ποιότητα των δεδομένων πολύ διαφορετικά, ενδεχομένως πλαισιώνοντας τη γλώσσα μας και σκεπτόμενοι την ποιότητα των δεδομένων με αντίθετους τρόπους. Παραδείγματα είναι:
- The Open Data Monitor
- Open Data Quality Measurement Framework
- The Data Quality Framework of Australia’s Federal Government
Ορισμένοι δείκτες επικεντρώνονται στο περιεχόμενο των πυλών δεδομένων (αριθμός δημοσιευμένων συνόλων δεδομένων) ή στην πρόσβαση σε δεδομένα. Ένα μικρό κλάσμα επικεντρώνεται στα σύνολα δεδομένων, το περιεχόμενό τους, τη δομή, την κατανόησή τους ή τη δυνατότητα επεξεργασίας τους. Ακόμη και το GODI και το Open Data Barometer από το World Wide Web Foundation δεν μοιράζονται έναν κοινό ορισμό της ποιότητας των δεδομένων.
[box] Αναμφισβήτητα, η ποικιλομορφία των υφιστάμενων δεικτών ποιότητας αποτρέπει μια στοχοθετημένη και στρατηγική προσέγγιση για τη βελτίωση της ποιότητας των δεδομένων.[/box]
Αυτή τη στιγμή ο GODI ορίζει τους ακόλουθους δείκτες για τη μέτρηση της ποιότητας των δεδομένων:
- Πληρότητα του περιεχομένου του συνόλου δεδομένων
- Προσβασιμότητα (ελεγχόμενη από την πρόσβαση ή δημόσια πρόσβαση;)
- Ευκολία εύρεσης δεδομένων
- Επεξεργασιμότητα (αναγνώσιμη από το μηχάνημα και ποσό της προσπάθειας που απαιτείται για τη χρήση δεδομένων)
- Έγκαιρη δημοσίευση
Αυτό αποκλείει άλλες ιδιότητες. Θα μπορούσαμε να ρωτήσουμε αν τα δεδομένα είναι πραγματικά κατανοητά από τους ανθρώπους. Για παράδειγμα, υπάρχει μια περιγραφή ποιο είναι το κάθε τμήμα του περιεχομένου δεδομένων (μεταδεδομένα);
Βελτίωση της ποιότητας βελτιώνοντας τον τρόπο παραγωγής των δεδομένων
Πολλές μετρήσεις ποιότητας δεδομένων είναι (σωστά) επικεντρωμένες στον χρήστη. Ωστόσο, είναι κρίσιμο το γεγονός ότι η κυβέρνηση ως παραγωγός δεδομένων κατανοεί καλύτερα, παρακολουθεί και βελτιώνει την εγγενή ποιότητα των δεδομένων που παράγει. Η μέτρηση της ποιότητας των δεδομένων μπορεί να ενθαρρύνει τις κυβερνήσεις να σχεδιάσουν δεδομένα για αντίκτυπο: με την αύξηση της ευαισθητοποίησης σχετικά με τα θέματα ποιότητας που θα καθιστούσαν πρακτικά αδύνατο να χρησιμοποιηθούν τα αρχεία δεδομένων.
Στο Open Knowledge International, στοχεύουμε κυρίως στους παραγωγούς δεδομένων και στα θέματα ποιότητας των αρχείων δεδομένων μέσω του έργου Frictionless Data Στα αξιοσημείωτα έργα περιλαμβάνονται το Data Quality Spec που ορίζει ορισμένες βασικές πτυχές ποιότητας για αρχεία δεδομένων πίνακα. Το GoodTables παρέχει διαρθρωτικά και επικυρωμένα διαγράμματα κυβερνητικών δεδομένων και το Data Quality Dashboard επιτρέπει στους ενδιαφερόμενους ανοικτούς φορείς να βλέπουν μετρήσεις ποιότητας δεδομένων για ολόκληρες συλλογές δεδομένων “με μια ματιά”, συμπεριλαμβανομένου του αριθμού σφαλμάτων σε ένα αρχείο δεδομένων. Αυτά τα εργαλεία συμβάλλουν στην ανάπτυξη μιας πιο συστηματικής αξιολόγησης της τεχνικής επεξεργασίας και της χρηστικότητας των δεδομένων.
Πρόσκληση για κοινή εργασία για καλύτερη ποιότητα δεδομένων
Γνωρίζουμε ότι η καλή ποιότητα των δεδομένων απαιτεί λύσεις από κοινού. Ως εκ τούτου, θα θέλαμε να ακούσουμε τα σχόλιά σας. Ποιες είναι οι εμπειρίες σας με την ανοικτή ποιότητα δεδομένων; Ποια ποιοτικά ζητήματα εμποδίζουν τη χρήση ανοικτών δεδομένων; Πώς καθορίζετε αυτές τις ιδιότητες δεδομένων; Τι θα μπορούσε να βελτιώσει η ομάδα του GODI; Ενημερώστε μας, συμμετέχοντας στη συζήτηση για το GODI στο φόρουμ μας.
Μπορείτε να βρείτε το πρωτότυπο κείμενο εδώ.