Του Adrià Mercader
Το πρότζεκτ του Frictionless Data αφορά την εύκολη μεταφορά δεδομένων υψηλής ποιότητας μεταξύ διαφορετικών εργαλείων και πλατφορμών για περαιτέρω ανάλυση. Αυτό το πετυχαίνουμε, αναπτύσσοντας ένα σύνολο λογισμικού, προδιαγραφών και βέλτιστων πρακτικών για τη δημοσίευση δεδομένων. Η καρδιά των Frictionless Data είναι η προδιαγραφή του Πακέτου Δεδομένων, δηλαδή ένα εμπορικό format για κάθε είδος δεδομένων που βασίζεται σε υπάρχουσες πρακτικές για τη δημοσίευση λογισμικού ανοιχτού κώδικα.
Μέσω των πιλότων του, το Frictionless Data συνεργάζεται απευθείας με οργανισμούς για την επίλυση πραγματικών προβλημάτων διαχείρισης δεδομένων. Το Κέντρο για Αστικές και Κοινωνικές Έρευνες του Πανεπιστημίου του Πίτσμπουργκ (The University of Pittsburgh’s Center for Urban and Social Research) είναι ένας τέτοιος οργανισμός.
Ένας από τους κύριους στόχους του πρότζεκ Frictionless Data είναι να συμβάλει στη βελτίωση της ποιότητας των δεδομένων, παρέχοντας εύκολη ενσωμάτωση βιβλιοθηκών και υπηρεσιών για επικύρωση δεδομένων. Έχουμε ενσωματώσει την επικύρωση δεδομένων απρόσκοπτα με διαφορετικά backends, όπως το GitHub και το Amazon S3, μέσω της online υπηρεσίας goodtables.io, αλλά θα θέλαμε επίσης να διερευνήσουμε στενότερες ενοποιήσεις και με άλλες πλατφόρμες.
Μια προφανής επιλογή για κάτι τέτοιο είναι οι πύλες Ανοικτών Δεδομένων. Εξακολουθούν να αποτελούν μία από τις κύριες μορφές διάδοσης των Ανοικτών Δεδομένων, ειδικά για τις κυβερνήσεις και άλλους οργανισμούς. Παρέχουν ένα ενιαίο σημείο εισόδου για δεδομένα, σχετικά με μια συγκεκριμένη περιοχή ή θεματική περιοχή, και παρέχουν στους χρήστες εργαλεία για την ανεύρεση και πρόσβαση σε διαφορετικά σύνολα δεδομένων. Στο backend, οι εκδότες διαθέτουν επίσης διαθέσιμα εργαλεία για την επικύρωση και δημοσίευση συνόλων δεδομένων.
Η ποιότητα των δεδομένων ποικίλλει ευρέως μεταξύ διαφορετικών πυλών, αντανακλώντας τις διαδικασίες δημοσίευσης και τις απαιτήσεις των οργανισμών φιλοξενίας. Γενικά, είναι δύσκολο για τους χρήστες να αξιολογήσουν την ποιότητα των δεδομένων, ενώ υπάρχει έλλειψη περιγραφικών στοιχείων για τα πραγματικά πεδία των δεδομένων. Σε επίπεδο εκδοτών, μολονότι δόθηκε μεγάλη έμφαση στα πρότυπα των μεταδεδομένων και στη διαλειτουργικότητα, οι εκδότες δεν έχουν γενικά την ίδια βοήθεια ή καθοδήγηση, όταν ασχολούνται με την ποιότητα ή την περιγραφή των δεδομένων.
Πιστεύουμε ότι η ποιότητα των δεδομένων στις πύλες Ανοικτών Δεδομένων μπορεί να διαδραματίσει κεντρικό ρόλο και στα δύο αυτά μέτωπα, το ένα με επίκεντρο τον χρήστη και το δεύτερο με επίκεντρο τον εκδότη, και ξεκινήσαμε αυτό το πιλοτικό πρόγραμμα για να παρουσιάσουμε μια πιθανή εφαρμογή.
Για να δοκιμάσουμε την εφαρμογή μας επιλέξαμε το Περιφερειακό Κέντρο Δεδομένων Δυτικής Πενσυλβανίας (Western Pennsylvania Regional Data Center – WPRDC), το οποίο διαχειρίζεται το Κέντρο για Αστικές και Κοινωνικές Έρευνες του Πανεπιστημίου του Πίτσμπουργκ. Το WPRDC είναι ένα εξαιρετικό παράδειγμα μιας καλά διαχειριζόμενης πύλης Ανοικτών Δεδομένων, όπου τα σύνολα δεδομένων διατηρούνται ενεργά, ενώ η ίδια η πύλη αποτελεί από μόνη της ένα στοιχείο μιας ευρύτερης στρατηγικής Ανοικτών Δεδομένων. Παρέχει επίσης μια μεγάλη ποικιλία εκδοτών, συμπεριλαμβανομένων οργανισμών του δημόσιου τομέα, ακαδημαϊκών ιδρυμάτων και μη κερδοσκοπικών οργανισμών.
Το λογισμικό που χρησιμοποιούμε για αυτό το πιλοτικό πρόγραμμα είναι το CKAN, το παγκοσμίως κορυφαίο λογισμικό ανοιχτού κώδικα για τις πύλες Ανοικτών Δεδομένων (πηγή). Το Open Knowledge International προήγαγε αρχικά το έργο του CKAN και τώρα είναι μέλος της Ένωσης CKAN.
Δημιουργήσαμε το ckanext-validation, μια επέκταση CKAN, που παρέχει API χαμηλού επιπέδου και άμεσα διαθέσιμες λειτουργίες για επικύρωση και αναφορά δεδομένων που μπορούν να προστεθούν σε οποιαδήποτε παράμετρο CKAN. Αυτή υποστηρίζεται από το goodtables, μια βιβλιοθήκη που αναπτύχθηκε από το Open Knowledge International για να υποστηρίξει την επικύρωση των πινάκων συνόλων δεδομένων.
Η επέκταση ckanext-validation επιτρέπει στους χρήστες να εκτελούν επικύρωση δεδομένων σε οποιονδήποτε πίνακα, όπως για παράδειγμα σε αρχεία CSV ή Excel. Αυτό δημιουργεί μια αναφορά που αποθηκεύεται σε έναν συγκεκριμένο πόρο, περιγράφοντας τα ζητήματα που εντοπίζονται σχετικά με τα δεδομένα, τόσο σε δομικό επίπεδο, όπως κεφαλίδες που λείπουν και κενές σειρές, όσο και σε επίπεδο μορφής των δεδομένων, όπως λανθασμένοι τύποι και εκτός εύρους τιμές.
Διαβάστε τις τεχνικές λεπτομέρειες σχετικά με αυτήν την πιλοτική μελέτη, τις γνώσεις μας και τους τομείς που έχουμε εντοπίσει για περαιτέρω εργασία στο μέλλον, εδώ, στην ιστοσελίδα του Frictionless Data.