Συγκεντρωτές δεδομένων: Μια λύση για τα ζητήματα ανοικτών δεδομένων

Από τον Giuseppe Maio

Αυτό είναι ένα φιλοξενούμενο άρθρο γνώμης από τον Guiseppe Maio και τον Jedrzej Czarnota PhD. Τα βιογραφικά τους βρίσκονται στο τέλος τού άρθρου.

Η έκθεση τού Open Knowledge International για την κατάσταση των ανοικτών δεδομένων προσδιορίζει τα κύρια προβλήματα που αφορούν τις πρωτοβουλίες ανοικτών κυβερνητικών δεδομένων. Αυτά είναι: Η πολύ χαμηλή δυνατότητα ανίχνευσης πηγών ανοικτών δεδομένων, που δικαίως ορίζονται ως “σκληρά ή αδύνατα να βρεθούν”, η έλλειψη διαλειτουργικότητας πηγών ανοικτών δεδομένων, οι οποίες συχνά είναι πολύ δύσκολο να χρησιμοποιηθούν, και η έλλειψη τυποποιημένης ανοικτής άδειας, που αποτελεί νομικό εμπόδιο για την ανταλλαγή δεδομένων. Αυτά τα προβλήματα βλάπτουν την ίδια την ουσία του κινήματος ανοικτών δεδομένων, το οποίο συνηγορεί με δεδομένα εύκολα να βρεθούν, να είναι προσβάσιμα και να επαναχρησιμοποιηθούν.

Σε αυτήν τη θέση, θα υποστηρίξουμε ότι οι συγκεντρωτές/συσσωρευτές δεδομένων (data aggregators) είναι πιθανή λύση στα προβλήματα που αναφέρθηκαν παραπάνω. Οι συγκεντρωτές δεδομένων είναι ηλεκτρονικές πλατφόρμες που αποθηκεύουν δεδομένα διαφορετικής φύσης ταυτόχρονα σε κεντρική τοποθεσία για να χρησιμοποιηθούν για διαφορετικούς σκοπούς. Θα υποστηρίξουμε ότι οι συγκεντρωτές δεδομένων είναι, μέχρι στιγμής, ένα από τα πιο ισχυρά και χρήσιμα εργαλεία για την αντιμετώπιση ανοικτών δεδομένων και την επίλυση των προβλημάτων που τα επηρεάζουν.

Θα προσκομίσουμε τα αποδεικτικά στοιχεία υπέρ αυτού του επιχειρήματος, παρατηρώντας πώς οι αρχές FAIR, Findability, Accessibility, Interoperability and Reusability (ευκολία εύρεσης, προσβασιμότητα, διαλειτουργικότητα και επαναχρησιμοποίηση), τίθενται σε εφαρμογή από τέσσερις διαφορετικούς συγκεντρωτές δεδομένων που έχουν κατασκευαστεί σε Ινδονησία, Τσεχική Δημοκρατία, Η.Π.Α. και Ε.Ε. Οι αρχές FAIR χρησιμοποιούνται συνήθως ως σημείο αναφοράς για την αξιολόγηση της ποιότητας των πρωτοβουλιών ανοικτών δεδομένων και οι ορθές πρακτικές FAIR προωθούνται από τους υπεύθυνους χάραξης πολιτικής.

Εικόνα: SangyaPundir (Wikimedia Commons)

Επίσης, θα αξιολογήσουμε την ποιότητα των εργαλείων παροχής δεδομένων των συγκεντρωτών. Οι καλές συνολικές επιδόσεις των συγκεντρωτών στους δείκτες FAIR και η καλή ποιότητα των εργαλείων παροχής στοιχείων τους θα αποδείξουν τη σημασία τους. Σε αυτήν τη θέση, θα παρέχουμε αρχικά έναν ορισμό των συγκεντρωτών δεδομένων που παρουσιάζουν τους τέσσερις συσσωρευτές δεδομένων που αναφέρθηκαν προηγουμένως. Στη συνέχεια, θα συζητήσουμε τις επιδόσεις των συγκεντρωτών στους δείκτες FAIR και την ποιότητα της παροχής δεδομένων τους.

Συγκεντρωτές/Συσσωρευτές Δεδομένων

Οι συγκεντρωτές δεδομένων εκτελούν δύο κύριες λειτουργίες: συνάθροιση δεδομένων και ολοκλήρωση. Η συσσωμάτωση συνίσταται στη δημιουργία κόμβων όπου μπορούν να προσπελαστούν πολλαπλές πηγές δεδομένων για διάφορους σκοπούς. Η ενσωμάτωση αναφέρεται σε συνδεδεμένα δεδομένα, συγκεκριμένα δεδομένα στα οποία προσαρτάται μια σημασιολογική ετικέτα (μια ονομασία που περιγράφει μία μεταβλητή), ώστε να επιτρέπονται η ενσωμάτωση και η συγχώνευση διαφορετικών πηγών δεδομένων (Mazzetti et al 2015, Hosen και Alfina 2016, Qanbari κ.ά. 2015, Knap κ.ά. 2012).

Στη συνέχεια, δύο πλεονεκτήματα χαρακτηρίζουν τους συσσωρευτές δεδομένων. Πρώτον, οι συσσωρευτές εφαρμόζουν τους λεγόμενους “διαχωρισμούς ανησυχίας”: αυτό σημαίνει ότι κάθε φορέας είναι υπεύθυνος για μια λειτουργικότητα. Ο διαχωρισμός των ανησυχιών ενισχύει την υπευθυνότητα και βελτιώνει τις υπηρεσίες δεδομένων. Δεύτερον, οι συσσωρευτές φιλοξενούν υπηρεσίες προστιθέμενης αξίας, δηλαδή σημασιολογία, μετασχηματισμό δεδομένων, γραφικά δεδομένων (Mazzetti et al 2015). Ωστόσο, οι συγκεντρωτές αντιμετωπίζουν μια μεγάλη πρόκληση, καθώς αντιπροσωπεύουν ένα “ενιαίο σημείο αποτυχίας”: όταν οι συνεταιρισμοί καταρρεύσουν, τίθεται σε κίνδυνο όλο το σύστημα (συμπεριλαμβανομένων των παρόχων δεδομένων και των χρηστών).

Σε αυτήν τη θέση ερευνούμε την ιστοσελίδα της Ινδονησίας Active Hiring, το τσεχικό ODCleanStore, το Data.gov με έδρα τις Η.Π.Α. και το ENERGIC-OD που χρηματοδοτείται από την Ε.Ε.

  1. Ο δικτυακός τόπος Active Hiring είναι μια πύλη που παρακολουθεί τις τάσεις προσλήψεων εργασίας ανά τομέα, γεωγραφική περιοχή και τύπο εργασίας. Η πλατφόρμα χρησιμοποιεί ανοικτά και συνδεδεμένα δεδομένα (Hosen και Alfina 2016).
  2. Το ODCleanStore είναι ένα έργο που επιτρέπει την αυτοματοποιημένη συγκέντρωση δεδομένων, απλοποιώντας τις προηγούμενες διαδικασίες συσσωμάτωσης. Ο ιστότοπος παρέχει μεταδεδομένα προέλευσης (μεταδεδομένα που δείχνουν την προέλευση των δεδομένων) και πληροφορίες σχετικά με την αξιοπιστία των δεδομένων (Knap et al 2012).
  3. Το Data.gov είναι μια πλατφόρμα που καταγράφει τα ακατέργαστα δεδομένα, παρέχοντας ανοικτά API σε κυβερνητικά δεδομένα. Αυτή η πύλη αποτελεί μέρος της κίνησης Gov 2.0.
  4. Το ENERGIC-OD (European Network for Redistributing Geospatial Information to user Community – Open Data) είναι ένα έργο που χρηματοδοτείται από την Ευρωπαϊκή Επιτροπή και στοχεύει στη διευκόλυνση της πρόσβασης στα ανοικτά δεδομένα του Γεωγραφικού Συστήματος Πληροφοριών (GIS). Το έργο δημιούργησε ένα πανευρωπαϊκό Virtual Hub (pEVH), μια νέα τεχνολογία που διεξάγει διαμεσολάβηση μεταξύ διαφορετικών πηγών δεδομένων ανοικτού GIS.

Δείκτες FAIR και ποιότητα παροχής δεδομένων για την αξιολόγηση των συγκεντρωτών δεδομένων

Οι αρχές FAIR και η ποιότητα της παροχής δεδομένων είναι τα κριτήρια για την αξιολόγηση των συγκεντρωτών ανοικτών δεδομένων.

Findability. Ευκολία εύρεσης. Οι συγκεντρωτές δεδομένων εξ ορισμού αυξάνουν την ανιχνευσιμότητα των ανοικτών δεδομένων, καθώς συγκεντρώνουν δεδομένα σε έναν μόνο ιστό, καθιστώντας τον πιο ανακαλύψιμο. Οι συγκεντρωτές, ωστόσο, δεν επιλύουν πλήρως το πρόβλημα της έλλειψης ανακαλυψιμότητας: απλώς αλλάζουν τη φύση του. Ενώ πριν, η εύρεση συνδεόταν με τεχνικά προβλήματα (τα δεδομένα ήταν διαθέσιμα αλλά χρειάζονταν τεχνικές δεξιότητες για την εξαγωγή τους από διάφορες αρχικές θέσεις), τώρα είναι συνυφασμένη με εμπορικά (τα δεδομένα είναι σε ένα μέρος, αλλά κανείς μπορεί να μην το γνωρίζει). Έτσι, οι συγκεντρωτές αντιμετωπίζουν τα ζητήματα εύρεσης αλλά δεν τα επιλύουν πλήρως.

Accessibility. Προσβασιμότητα. Οι συγκεντρωτές αποδίδουν καλά στον δείκτη προσβασιμότητας. Για παράδειγμα, το ENERGIC-OD κάνει τα δεδομένα πολύ προσβάσιμα μέσω της χρήσης ενός μόνο API. Η νέα μονάδα που προτείνεται από το Data.gov, η Data Compute Unit (DCU), παρέχει API για να καταστήσει τα δεδομένα προσβάσιμα και χρησιμοποιήσιμα. Το ODCleanStore μετατρέπει τα δεδομένα σε μορφή RDF που τα καθιστά πιο προσβάσιμα. Τέλος, η διαδικτυακή τοποθεσία Active Rental θα παρέχει δεδομένα ως CSV μέσω των API. Οι συγκεντρωτές παρουσιάζουν βελτιωμένη προσβασιμότητα των δεδομένων.

Interoperability. Διαλειτουργικότητα. Όλες οι πλατφόρμες παράγουν μεταδεδομένα (ENERGIC-OD, Data.gov) και συνδεδεμένα δεδομένα (Active Hiring Website και ODCleanStore), τα οποία καθιστούν τα δεδομένα διαλειτουργικά, επιτρέποντάς τα να ενσωματωθούν, συμβάλλοντας έτσι στην επίλυση του ζητήματος μη διαλειτουργικότητας.

Reusability. Επαναχρησιμοποίηση. Το μοντέλο freemium του ENERGIC-OD προωθεί την επαναχρησιμοποίηση. Τα δεδομένα Data.gov μπορούν εύκολα να μεταφορτωθούν και να επαναχρησιμοποιηθούν. Το ODCleanStore εγγυάται την επαναχρησιμοποίηση, δεδομένου ότι τα δεδομένα έχουν άδεια χρήσης με το Apache 2.0, ενώ το Active Hiring επιτρέπει μόνο την απεικόνιση. Έτσι, τρεις από τους τέσσερις συγκεντρωτές ενισχύουν την επαναχρησιμοποίηση των δεδομένων, δείχνοντας μια καλή απόδοση στον δείκτη επαναχρησιμοποίησης.

Quality of data provision. Ποιότητα παροχής δεδομένων. Το Web Crawler χρησιμοποιείται στις ιστοσελίδες ENERGIC-OD και Active Hiring. Πρόκειται για ένα πρόγραμμα που μετατρέπει τον ιστό στην αναζήτηση δεδομένων με αυτοματοποιημένο και μεθοδικό τρόπο. Το ODCleanStore αποκτά δεδομένα με τους ακόλουθους τρόπους: Α) Μέσω μιας “ενότητας συλλογής δεδομένων” η οποία συλλέγει κυβερνητικά δεδομένα από πολλές διαφορετικές πηγές σε διάφορες μορφές και τη μετατρέπει σε RDF (Knap et al 2012), 2) μέσω της χρήσης μιας διαδικτυακής υπηρεσίας για εκδότες, 3) ή τα δεδομένα μπορούν να σταλούν απευθείας ως RDF. Στην περίπτωση του Data.gov, η κυβέρνηση στέλνει δεδομένα απευθείας στην πύλη. Τρεις από τους τέσσερις συγκεντρωτές παρουσιάζουν αυτοματοποιημένους ή ημιαυτόματους τρόπους απόκτησης δεδομένων, καθιστώντας τη διαδικασία πιο ομαλή.

Συμπέρασμα

Αυτή η θέση ανέλυσε τις επιδόσεις τεσσάρων συγκεντρωτών δεδομένων στις αρχές FAIR. Η συνολική καλή απόδοση των συγκεντρωτών καταδεικνύει πώς καθιστούν τη διαδικασία παροχής δεδομένων πιο ομαλή και πιο αυτοματοποιημένη, βελτιώνοντας τις πρακτικές ανοικτών δεδομένων. Πιστεύουμε ότι οι aggregators είναι από τα πιο χρήσιμα και ισχυρά εργαλεία που διατίθενται σήμερα για να χειριστούν ανοικτά δεδομένα.

Αναφορές

  • Hosen, A. and Alfina, I. (2016). Aggregation of Open Data Information using Linked Data: Case Study Education and Job Vacancy Data in Jakarta. IEEE, pp.579-584.
  • Knap, T., Michelfeit, J. and Necasky, M. (2012). Linked Open Data Aggregation: Conflict Resolution and Aggregate Quality. IEEE 36th International Conference on Computer Software and Applications Workshops, pp.106-111.
  • Mazzetti, P., Latre, M., Bauer, M., Brumana, R., Brauman, S. and Nativi, S. (2015). ENERGIC-OD Virtual Hubs: a brokered architecture for facilitating Open Data sharing and use. IEEE eChallenges e-2015 Conference Proceedings, pp.1-11.
  • Qanbari, S., Rekabsaz, N. and Dustdar, S. (2017). Open Government Data as a Service (GoDaaS): Big Data Platform for Mobile App Developers. IEEE 3rd International Conference on Future Internet of Things and Cloud, pp.398-403.

Ο Giuseppe Maio είναι βοηθός έρευνας που ασχολείται με την καινοτομία στην Trilateral Research. Μπορείτε να επικοινωνήσετε μαζί του στο giuseppe.maio@trilateralresearch.com. Στο twitter είναι @pepmaio. Ο Jedrzej Czarnota είναι ερευνητικός αναλυτής στην Trilateral Research. Ειδικεύεται στη διαχείριση της καινοτομίας και την ανάπτυξη της τεχνολογίας. Μπορείτε να επικοινωνήσετε με τον Jedrzej στο Jedrzej.czarnota@trilateralresearch.com και το Twitter του είναι @jedczar.

*Μπορείτε να βρείτε το πρωτότυπο κείμενο εδώ.

Leave a Comment

Your email address will not be published. Required fields are marked *

Subscribe To Our Newsletter

Subscribe To Our Newsletter

Join our mailing list to receive the latest news and updates from our team.

You have Successfully Subscribed!

Scroll to Top