Το OKFN Greece μετά την ανάπτυξη της Ελληνικής DBpedia (της πρώτης DBpedia με μη λατινικούς χαρακτήρες) συμμετέχει στην προσπάθεια ανάπτυξης των Ελληνικών γλωσσικών διασυνδεδεμένων δεδομένων (Greek linguistic Linked Open Data), μέσω του Open Linguistic working group του OKFN, αναπτύσσοντας το Ελληνικό DBpedia Spotlight
Το DΒpedia Spotlight είναι μια εφαρμογή, που με αυτοματοποιημένο τρόπο, εντοπίζει μέσα σε κείμενο λέξεις ή φράσεις που είναι πηγές της DΒpedia, πραγματοποιεί την εννοιολογική αποσαφήνισή τους και τις συνδυάζει με τα αντίστοιχα URIs της DΒpedia.
Η λειτουργία της εφαρμογής περιλαμβάνει τα παρακάτω στάδια:
-
Εντοπισμός – επιλογή των λέξεων ή φράσεων μέσα στο κείμενο που ενδέχεται να αποτελούν πηγές της DΒpedia.
-
Επιλογή υποψήφιων πηγών της DΒpedia που συνδυάζονται με τις λέξεις ή φράσεις που έχουν επιλεγεί. Αυτές οι αναφορές της DΒpedia έχουν τη μεγαλύτερη πιθανότητα να αποσαφηνίσουν εννοιολογικά τους όρους που έχουν επιλεγεί στο πρώτο στάδιο.
-
Στο στάδιο της αποσαφήνισης, η εφαρμογή χρησιμοποιεί το κείμενο γύρω από τους επιλεγμένους όρους προκειμένου να αναδείξει την πηγή της DΒpedia που είναι η καταλληλότερη για την αποσαφήνιση αυτών των όρων.
Για τη λειτουργία της εφαρμογής είναι απαραίτητο να προηγηθεί ένα στάδιο εκπαίδευσης με τη δημιουργία ενός λεξικού από στοιχεία της DΒpedia και της Wikipedia. Το λεξικό αυτό περιλαμβάνει όρους από τα παρακάτω:
-
Labels της DΒpedia δηλαδή τίτλους των άρθρων της Wikipedia.
-
Redirects της DΒpedia δηλαδή συνώνυμες ή εναλλακτικές εκφράσεις των URIs της DΒpedia (εκτός από συνώνυμα περιλαμβάνονται ακρώνυμα, συχνά ορθογραφικά λάθη κτλ.)
-
Disambiguations της DΒpedia δηλαδή όρους οι οποίοι μπορούν να περιγραφούν ή να συνδέονται εννοιολογικά με πολλά διαφορετικά URIs της DΒpedia και γι’αυτό το λόγο υπάρχει μια ασάφεια ως προς το ποιο είναι το καταλληλότερο URI για να τους περιγράψει.
-
Wikilinks δηλαδή τους συνδέσμους που διασυνδέουν άρθρα της Wikipedia και οι οποίοι στο κείμενο τους (anchortext) περιλαμβάνουν όρους που ανήκουν στις 3 παραπάνω κατηγορίες. Επίσης, ολόκληρη η παράγραφος στην οποία βρίσκεται ο κάθε σύνδεσμος χρησιμοποιείται σαν αναπαράσταση κειμένου στο οποίο συναντάται αυτός ο σύνδεσμος και ο/οι αντίστοιχος/οι όρος/οι.
Όσον αφορά τη λειτουργία της εφαρμογής, στο στάδιο του εντοπισμού λέξεων – φράσεων μέσα στο κείμενο και στο στάδιο της επιλογής υποψήφιων URIs, υλοποιείται ο αλγόριθμος Aho-Corasick string matching με χρήση των βιβλιοθηκών Apache Lucene στο λεξιλόγιο που κατασκευάζεται στη φάση της εκπαίδευσης και περιγράφηκε παραπάνω. Η αποσαφήνιση των λέξεων/φράσεων που έχουν επιλεγεί και o τελικός συνδυασμός τους με ένα μοναδικό URI της DΒpedia γίνεται με μια VSM (Vector Space Model) αναπαράσταση του περιεχομένου της DΒpedia και χρήση μιας παραλλαγής της τεχνικής TF IDF για τον προσδιορισμό των βαρών των λέξεων.
Επίσης, δίνεται στο χρήστη η δυνατότητα μερικής παραμετροποίησης της λειτουργία του DΒpedia Spotlight μέσω της διεπαφής της εφαρμογής. Ο χρήστης μπορεί να:
-
συγκεκριμενοποιήσει τις έννοιες τις οποίες επιθυμεί να αποσαφηνίσει δίνοντας σαν επιπλέον παράμετρο ένα εξειδικευμένο SPARQL ερώτημα και με αυτό τον τρόπο να περιορίσει τα επιστρεφόμενα αποτελέσματα μόνο σε ότι τον ενδιαφέρει.
-
δηλώσει τις κλάσεις ή κατηγορίες εννοιών για τις οποίες ενδιαφέρεται. Το DΒpedia Spotlight μπορεί να χρησιμοποιήσει την οντολογία της DΒpedia για να αποσαφηνίσει μόνο τις έννοιες που ενδιαφέρουν το χρήστη (αυτή η λειτουργία δεν είναι ακόμα διαθέσιμη για το ελληνικό DΒpedia Spotlight).
-
προκαθορίσει 3 παραμέτρους προκειμένου να βελτιώσει την αποδοτικότητα της εφαρμογής:
α. Confidence: Παίρνει τιμές από 0 έως 1. Όσο μεγαλύτερη είναι η τιμή αυτής της παραμέτρου τόσο πιο “αυστηρή” και “επιλεκτική” γίνεται η αποσαφήνιση του κειμένου από την εφαρμογή λαμβάνοντας υπόψη τη θεματική συνάφεια των λέξεων/φράσεων και τη συνολική ασάφεια του κειμένου.
β. Contextual score: Παίρνει τιμές από 0 έως 1. Όσο μεγαλύτερη είναι η τιμή αυτής της παραμέτρου τόσο περισσότερο η εφαρμογή τείνει να αποκλείει από τη διαδικασία της αποσαφήνισης λέξεις/φράσεις που έχουν μικρή θεματική συνάφεια με το κείμενο
γ. Support: Με αυτήν την παράμετρο ο χρήστης προκαθορίζει τον ελάχιστο αριθμό συνδέσμων της Wikipedia που πρέπει να “δείχνουν” σε έναν όρο της DΒpedia, προκειμένου το DΒpedia Spotlight να επιχειρήσει να τον αποσαφηνίσει.
Η υλοποίηση του ελληνικού DΒpedia Spotlight, η οποία περιλαμβάνει και την προσθήκη της δυνατότητας χειρισμού μη λατινικών χαρακτήρων κωδικοποιημένων σε UTF-8 από την εφαρμογή, πραγματοποιήθηκε σε συνεργασία του OKFN:Greece με το ΠΜΣ στην επιστήμη του διαδικτύου. Συγκεκριμένα, από το μεταπτυχιακό φοιτητή Ιωάννη Αβραάμ υπό την επίβλεψη του Δρ. Χαράλαμπου Μπράτσα συντονιστή του OKFN:Greece και Επιστημονικού Συμβούλου της Μονάδας Σημασιολογικού Ιστού του Α.Π.Θ. Το ελληνικό DΒpedia Spotlight έχει υλοποιηθεί ως Web υπηρεσία, παρέχοντας μια διεπαφή χρήστη στο http://dbpedia-spotlight.math.auth.gr/. Η εφαρμογή είναι ανοιχτού κώδικα και διατίθεται με άδεια Apache license V2 στο https://github.com/iavraam/dbpedia-spotlight.git (dbpediaSpotlight_el branch).
Αναφορές
- Kontokostas D., Bratsas C., Auer S., Hellmann S., Antoniou I., Metakides G., 2012, Internationalization of Linked Data. The case of the Greek DBpedia edition. In the Journal of Web Semantics: Science, Services and Agents on the World Wide Web, Volume 15, Sept 2012, pp. 51–61, http://dx.doi.org/10.1016/j.websem.2012.01.001.
- Status Quo and Perspectives, by Christian Chiarcos and Sebastian Hellmann