από τον Jo Barratt
Το Open Knowledge International εργάζεται για το έργο Frictionless Data για την άρση της τριβής κατά την επεξεργασία δεδομένων. Αυτό το κάνουμε αναπτύσσοντας ένα σύνολο εργαλείων, προτύπων και βέλτιστων πρακτικών για τη δημοσίευση δεδομένων. Η καρδιά των δεδομένων χωρίς τριβή είναι το Data Package standard, μια μορφή τυποποίησης για κάθε είδος δεδομένων που βασίζεται σε υπάρχουσες πρακτικές για τη δημοσίευση λογισμικού ανοικτού κώδικα.
Είμαστε περίεργοι να μάθουμε για ορισμένα από τα κοινά προβλήματα που αντιμετωπίζουν οι χρήστες όταν εργάζονται με δεδομένα. Στη δική μας σειρά μελετών περίπτωσης, επισημαίνουμε έργα και οργανισμούς που εργάζονται με τις προδιαγραφές και τα εργαλεία Frictionless Data με ενδιαφέροντα και καινοτόμα μέσα. Για αυτή τη μελέτη περίπτωσης, διεξήγαμε συνέντευξη με τον Bryon Jacob του data.world. Περισσότερες μελέτες περιπτώσεων μπορούν να βρεθούν στη διεύθυνση http://frictionlessdata.io/case-studies.
Πώς χρησιμοποιείτε τα χαρακτηριστικά Frictionless Data και ποια πλεονεκτήματα βρίσκετε στη χρήση της Data Package προσέγγισης;
Αντιμετωπίζουμε μια μεγάλη ποικιλία δεδομένων, τόσο από πλευράς περιεχομένου όσο και από άποψη μορφής πηγής – οι περισσότεροι άνθρωποι που εργάζονται με δεδομένα αλληλοσυνδέονται με ηλεκτρονικά φύλλα ή CSV και δεν ορίζουν τυπικά το σχήμα ή τη σημασιολογία για αυτά που περιέχονται σε αυτά τα αρχεία δεδομένων.
Όταν το data.world καταναλώνει πίνακες δεδομένων, “οπτικοποιούμε” τους πίνακες μακριά από τη μορφή πηγής τους, και δημιουργούμε επίπεδα πληροφοριών τύπου και σημασιολογίας πάνω από τα ακατέργαστα δεδομένα. Αυτό που μας επιτρέπει να κάνουμε είναι να παράγουμε ένα καθαρό πακέτο δεδομένων πακέτου [^ Package] για οποιοδήποτε σύνολο δεδομένων, είτε πρόκειται για αρχεία CSV, για υπολογιστικά φύλλα Excel, για δεδομένα JSON, για αρχεία βάσης δεδομένων SQLite – μπορούμε να το παρουσιάσουμε ως καθαρισμένα δεδομένα CSV με datapackage.json που περιγράφει το σχήμα και τα μεταδεδομένα του περιεχομένου.
Τι άλλο θα θέλατε να δείτε ανεπτυγμένο;
Πακέτα δεδομένων γραφημάτων ή “Παγκόσμια Πακέτα Δεδομένων ” που μπορούν να ενσωματώνουν τόσο τα στοιχεία πίνακα όσο και τα γράμματα. Θα ήταν υπέροχο να μπορούσαμε να παρουσιάσουμε δεδομένα πίνακα και γραφήματος στο ίδιο πακέτο και να αναπτύξουμε εργαλεία που ξέρουν πώς να χρησιμοποιούν αυτά τα πράγματα μαζί.
Για να το επεξεργαστούμε αυτό, έχει πολύ νόημα να κανονικοποιηθούν τα δεδομένα σε πίνακες σε καθαρά, καλά διαμορφωμένα CSVs. ή δεδομένα που έχουν περισσότερη γραφική παράσταση, θα είχε επίσης νόημα να το εξομαλύνουμε σε μια τυποποιημένη μορφή. Το RDF είναι μια καθιερωμένη και τυποποιημένη μορφή, με πολλές σειριακές μορφές που θα μπορούσαν να χρησιμοποιηθούν εναλλακτικά (RDF XML, Turtle, Ν-Τρίπλες ή JSON-LD, για παράδειγμα). Τα μεταδεδομένα στο datapackage.json θα ήταν εξαιρετικά ελάχιστα, αφού το σχήμα για τα δεδομένα RDF κωδικοποιείται στο ίδιο το αρχείο δεδομένων. Μπορεί να είναι χρήσιμο να χρησιμοποιήσουμε τον περιγραφέα datapackage.json για να καταγράψουμε τις τυπικές ταξινομίες και οντολογίες που χρησιμοποιήθηκαν, για παράδειγμα θα ήταν χρήσιμο να γνωρίζουμε εάν ένα αρχείο περιέχει λεξιλόγια SKOS ή κατηγορίες OWL.
Ποια είναι τα επόμενα πράγματα πάνω στα οποία πρόκειται να εργαστείτε;
Θέλουμε να συνεχίσουμε να εμπλουτίζουμε τα μεταδεδομένα που συμπεριλαμβάνουμε στα Tabular Data Packages που εξάγονται από το data.world, και εξετάζουμε τη χρήση του datapackage.json ως μορφή εισαγωγής και εξαγωγής.
Πώς τα χαρακτηριστικά Frictionless Data συγκρίνονται με τις υπάρχουσες ιδιόκτητες και μη προστατευτικές προδιαγραφές για το είδος των δεδομένων με τα οποία εργάζεστε;
Το data.world λειτουργεί με πολλά δεδομένα σε πολλούς τομείς – αυτό που είναι εξαιρετικό για τα χαρακτηριστικά Frictionless Data είναι ότι είναι ένα ελαφρύ πρότυπο περιεχομένου που μπορεί να αποτελέσει σημείο εκκίνησης για την ανάπτυξη προτύπων περιεχομένου ειδικά για συγκεκριμένο τομέα – βοηθά πραγματικά με το “πρώτο μίλι” την τυποποίηση δεδομένων και τη διαλειτουργικότητά τους.
Τι νομίζετε ότι είναι κάποιες άλλες πιθανές περιπτώσεις χρήσης;
Από μια ορισμένη έννοια, ένα Tabular Data Package είναι κάπως σαν μια ανοικτή πηγή, αντικατάσταση πλατφόρμας, προσπελάσιμη από υπολογιστικά φύλλα που μποροεί να λειτουργήσει ως “δεσμευτής” για αρκετούς σχετικούς πίνακες δεδομένων. Θα μπορούσα εύκολα να φανταστώ εργαλεία που βασίζονται στον ιστό ή την επιφάνεια εργασίας που μοιάζουν και λειτουργούν πολύ σαν ένα παραδοσιακό υπολογιστικό φύλλο, αλλά χρησιμοποιούν τα Πακέτα Δεδομένων ως μορφότυπο σειριοποίησης.
Σε ποιον άλλον πιστεύετε πρέπει να μιλήσουμε;
Σε παραγωγούς δεδομένων IDE (Interactive Development Environment) – RStudio, Rodeo (python), anaconda, Jupyter – οτιδήποτε λειτουργεί σε Πλαίσια Δεδομένων ως θεμελιώδες είδος αντικειμένου, πρέπει να παρέχει υποστήριξη πρώτης κατηγορίας εργαλείων και API για Tabular Data Packages.
Τι πρέπει να κάνει ο αναγνώστης μετά την ανάγνωση αυτής της μελέτης περίπτωσης;
Για να διαβάσετε περισσότερα σχετικά με την ενσωμάτωση του Πακέτου Δεδομένων στο data.world, διαβάστε την ανάρτησή μας: Δοκιμάστε αυτό: Frictionless data.world. Εγγραφείτε και αρχίστε να παίζετε με δεδομένα.
Έχετε κάποια ερώτηση ή κάποιο σχόλιο; Ενημερώστε μας στο φόρουμ για αυτή τη μελέτη περίπτωσης.
Μπορείτε να βρείτε το πρωτότυπο κείμενο εδώ.