Ανοικτά Γλωσσικά Δεδομένα: Το Ελληνικό Wordnet


Στις μέρες μας, το Διαδίκτυο αποτελεί ένα από τα σημαντικότερα μέσα διάδοσης γνώσης. Πληροφορίες και δεδομένα από επιστημονικούς τομείς και όχι μόνο, είναι προσβάσιμα από κάθε χρήστη. Ένας τέτοιος επιστημονικός τομέας που εκπροσωπείται από μια μεγάλη ποσότητα δεδομένων στο Διαδίκτυο είναι η γλωσσολογία, που ασχολείται με την μελέτη της ανθρώπινης γλώσσας. Τα δεδομένα αυτά ωστόσο είναι πιο χρήσιμα όταν μπορούν να συνδεθούν μεταξύ τους, ώστε να εξάγουν καλύτερα αποτελέσματα.

Σε αυτό τον τομέα το OKFN δημιούργησε το Open Linguistic working group του OKFN, με σκοπό την προώθηση των ανοικτών Διασυνδεδεμένων Γλωσσικών Δεδομένων . Το OKFN Greece συμμετέχει ενεργά στις δράσεις της συγκεκριμένης ομάδα εργασίας δημοσιοποιώντας το πρώτο Ελληνικό γλωσσικό σύνολο δεδομένων στο Web 3.0 Συγκεκριμένα, το OKFN Greece σε συνεργασία με το ΠΜΣ Επιστήμη του Διαδικτύου του Τμήματος Μαθηματικών του Αριστοτέλειου Πανεπιστημίου Θεσσαλονίκης , συντέλεσε στη δημοσίευση δεδομένων υπό τις Αρχές των Διασυνδεδεμένων Δεδομένων (Linked Data) ενός μεγάλου εκπροσώπου γλωσσολογικών δεδομένων, του Wordnet, για την ελληνική γλώσσα.

Το WordNet είναι μια λεξιλογική βάση δεδομένων αγγλικών λέξεων. Ομαδοποιεί τις λέξεις σε σύνολα συνωνύμων(synsets) καθένα από τα οποία αντιπροσωπεύει μια διακριτή λεξιλογική έννοια, δίνει σύντομους ορισμούς και συνδέει τα σύνολα με διάφορες λεξιλογικές και σημασιολογικές σχέσεις. Δημιουργήθηκε το 1985 στο Πανεπιστήμιο του Princeton, υπό τη διεύθυνση του καθηγητή ψυχολογίας George A. Miller ο οποίος εμπνεύστηκε από πειράματα τεχνητής νοημοσύνης που προσπαθούσαν να κατανοήσουν την ανθρώπινη σημασιολογική μνήμη. Ο στόχος της δημιουργίας του ήταν να αποτελέσει ένα συνδυασμό λεξικού με θησαυρό και να υποστηρίξει την αυτόματη ανάλυση κειμένου και εφαρμογές τεχνητής νοημοσύνης. Με τα χρόνια, το έργο έλαβε χρηματοδότηση από διάφορους κρατικούς φορείς που ήθελαν να προωθήσουν την μηχανική μετάφραση και έτσι, δημιουργήθηκαν αντίστοιχα προγράμματα για πολλές γλώσσες, συμπεριλαμβανομένης και της ελληνικής η οποία αναπτύχθηκε στα πλαίσια ενός ερευνητικού προγράμματος που χορηγήθηκε από την Ευρωπαϊκή Επιτροπή, του Balkanet.

Το Balkanet (Σεπτέμβριος 2001-Αύγουστος 2004) επέκτεινε τις Ευρωπαϊκές γλώσσες που είχαν αναπτυχθεί μέσω του EuroWordNet εισάγοντας έξι βαλκανικές γλώσσες (συγκεκριμένα βουλγαρικά, ελληνικά, ρουμανικά, σέρβικα, τούρκικα και τσέχικα). Στα πλαίσια αυτού, το ελληνικό WordNet δημιουργήθηκε από το εργαστήριο συστημάτων βάσεων δεδομένων (DBLab) στο Πανεπιστήμιο Πατρών με τη συμμετοχή του Πανεπιστημίου Αθηνών. Η μεγαλύτερη όμως φιλοδοξία του BalkaNet και άλλων ομοειδών προγραμμάτων είναι η σημασιολογική σύνδεση των λέξεων για κάθε γλώσσα καθώς, και η από κοινού σύνδεσή τους προκειμένου να δημιουργηθεί ένα on line πολύγλωσσο σημασιολογικό δίκτυο. Η εφαρμογή που αναπτύξαμε εξυπηρετεί το πρώτο κομμάτι του οράματος και είναι εύκολα εκτελέσιμη για κάθε γλώσσα, χωρίς ιδιαίτερες επιπλέον προγραμματιστικές γνώσεις ή απαιτήσεις hardware.

Συγκεκριμένα, στα τέλη του Αυγούστου το εργαστήριο συστημάτων βάσεων δεδομένων (DBLab) μας παραχώρησε τη βάση δεδομένων του ελληνικού WordNet σε ένα XML αρχείο που περιείχε 18.461 synsets. Κάθε synset διακρίνεται ανάλογα με το τι μέρος του λόγου είναι σε ουσιαστικό, ρήμα, επίρρημα και αντικείμενο. Τα περισσότερα σύνολα συνωνύμων συνδέονται με άλλα synsets μέσω ενός αριθμού σημασιολογικών σχέσεων. Οι σχέσεις αυτές ποικίλουν με βάση τον τύπο της λέξης, και περιλαμβάνουν σχέσεις όπως hypernym, hyponym κ.τ.λ. Οι σημασιολογικές σχέσεις ισχύουν για όλα τα μέλη του synset επειδή μοιράζονται ένα νόημα. Οι λέξεις όμως μπορούν επίσης να συνδεθούν με άλλες λέξεις μέσα από λεξιλογικές σχέσεις, π.χ. synonym, antonym. Το WordNet παρέχει και τον αριθμό πολυσημίας μιας λέξης, δηλαδή τον αριθμό των synsets που περιέχουν τη λέξη.

Παρακάτω δίνεται ένα παράδειγμα από το αρχείο XML για το synset “άστρο”:

<SYNSET><ID>ENG20-08850126-n</ID><POS>n</POS><SYNONYM><LITERAL>άστρο<SENSE>1</SENSE><LNOTE>a’stro</LNOTE></LITERAL><LITERAL>αστέρας<SENSE>1</SENSE><LNOTE>aste’ras</LNOTE></LITERAL><LITERAL>αστέρι<SENSE>1</SENSE><LNOTE>aste’ri</LNOTE></LITERAL></SYNONYM><ILR>ENG20-08664330-n<TYPE>hypernym</TYPE></ILR><ILR>ENG20-07771273-n<TYPE>holo_member</TYPE></ILR><ILR>ENG20-08675663-n<TYPE>holo_member</TYPE></ILR><ILR>ENG20-05731244-n<TYPE>category_domain</TYPE></ILR><DEF>κάθε αυτόφωτο ουράνιο σώμα που ακτινοβολεί χάρη στις εσωτερικές θερμοπυρηνικές πηγές ενέργειας τις οποίες έχει</DEF><BCS>2</BCS></SYNSET>

Κάθε synset περιγράφεται από τέτοιες ετικέτες των οποίων η έννοια είναι: SYNSET: περιέχει όλα τα δεδομένα σε σχέση με το synset, ID: αναγνωριστικό προέλευσης του ILI(το πρόθεμα ENG20 σημαίνει ότι το synset είχε δημιουργηθεί από το Princeton WordNet έκδοση 2.0, ενώ το πρόθεμα BILI σημαίνει ότι είχε δημιουργηθεί από το Balkanet), POS: μέρος του λόγου (οι πιθανές τιμές είναι: n: ουσιαστικό/ v: ρήμα/ b: επίρρημα/a: επίθετο), SYMONYM: κατάλογος των literals του συγκεκριμένου synset , LITERAL: διατύπωση της λέξης, SENSE: αριθμός που χρησιμοποιείται για την διαφοροποίηση της έννοιας , LNOTE: πληροφορίες σχετικά με την λέξη,DEF: περιγραφή του synset, STAMP: δίνει κάποιες πρόσθετες πληροφορίες( π.χ. συγγραφέας, ημερομηνία κ.τ.λ.), USE: δίνει ένα παράδειγμα χρήσης του synset, BCS: αντιπροσωπεύει το σύνολο των βασικών εννοιών για να κωδικοποιηθούν στο ελληνικό WordNet (οι πιθανές τιμές είναι 1, 2 ή 3), ILR: Δίνει μια σχέση μεταξύ του synset με την καθορισμένη ILI,TYPE: τύπος αυτής της σχέσης.

Η διαδικασία μετατροπής των δεδομένων σε RDF περιλαμβάνει τις επόμενες ενέργειες. Αναπτύχθηκε μια εφαρμογή στην C + + γλώσσα προγραμματισμού για την μετατροπή του XML αρχείου σε RDF.Ο κώδικας διαβάζει το αρχείο και για κάθε synset που βρίσκει αναθέτει ένα IRI, παράγει τις οντότητες WordeSense και Word και κάνει συνδέσεις μεταξύ των synsets και άλλων πόρων τόσο interlink όσο και intralink. Με τον τρόπο αυτό δημιουργήθηκαν οι αντίστοιχες τριπλέτες.

Για την δημοσιοποίηση των δεδομένων επιλέχθηκε η Ν3, ώστε τα παραγόμενα δεδομένα να είναι προσβάσιμα στο Διαδίκτυο, και χρησιμοποιήθηκαν dereferenceable IRIs σύμφωνα και με το πρότυπο που ακολουθήθηκε από το μοντέλο μετατροπής του Princeton Wordnet 2.0. Για παράδειγμα, το IRI ενός synset θα είναι της μορφής:

http://wordnet.okfn.gr/resource/synsetfirst_literal_of_synset-pos-sense

Οι αντιστοιχίσεις(mappings) καθορίζονται από ένα απλό configuration αρχείο, μερικές από τις οποίες φαίνονται στον παρακάτω πίνακα.

 

XML ELEMENT MAPPED PROPERTY CLASS
ID wn20s:synsetId Synset
DEF wn20s:gloss Synset
SENSE wn20s:sense WordSense
LITERAL rdfs:label Synset,WordSense,Word

 

Επίσης, χρησιμοποιήθηκαν οι οντολογίες Wordnet 2.0 RDF/OWL Full ontology(W3C-Mark van Assem), RDF Schema και WNGRE,μια επέκταση της WordNet Full προσθέτοντας μερικές επιπλέον ιδιότητες, ώστε να συμπεριληφθούν ορισμένα πεδία που δεν ήταν στο Princeton Wordnet και εισήχθησαν από το Balkanet (π.χ. το LNOTE το οποίο περιέχει την προφορά). Τελικά παρήχθησαν 172.066 τριπλέτες περιλαμβάνοντας 106.432 ιδιότητες και 18.457 sameAs links.

Στην παρακάτω εικόνα φαίνεται η αναπαράσταση του synset “άστρο” μετά την διαδικασία μετατροπής.

wordnet

Αν ακολουθήσετε τον σύνδεσμο http://wordnet.okfn.gr/page/synset-άστρο-noun-1 θα δείτε αναλυτικά το συγκεκριμένο παράδειγμα, ενώ αν επιλέξετε τις επιτρεπόμενες επιλογές θα έχετε τη δυνατότητα να δείτε τα synsets που συνδέονται με αυτό. Επίσης, είναι δυνατό να κατεβάσει κάποιος το αρχείο του synset σε διάφορες μορφές όπως CSV,XML και άλλες

Ο κώδικας RDFizing σε C + + στο OKFN Greece github

Αναφορές:

  • Sofia Stamou-Goran Nenadic-Dimitris Christodoulakis. Exploring Balkanet Shared Ontology for Multilingual Conceptual Indexing, LREC, European Language Resources Association, (2004), http://www.dblab.upatras.gr/balkanet/pubs/lrec2004.pdf
  • Kontokostas D., Bratsas C., Auer S., Hellmann S., Antoniou I., Metakides G., 2012, Internationalization of Linked Data. The case of the Greek DBpedia edition. In the Journal of Web Semantics: Science, Services and Agents on the World Wide Web, Volume 15, Sept 2012, pp. 51–61, http://dx.doi.org/10.1016/j.websem.2012.01.001.
  • C. Chiarcos, S. Hellmann, et al. The Open Linguistics Working Group. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC-2012), Istanbul, Turkey, May 2012a.
  • C. Chiarcos, S. Nordhoff, and S. Hellmann, Linked Data in Linguistics, pages 161–179, Heidelberg, 2012. Springer,http://ldl2012.lod2.eu/program/proceedings
  • Christian Chiarcos,John McCrae, Philipp Cimiano, and Christiane Fellbaum. Towards Open Data for Linguistics: Linguistic Linked Data
  • Christian Bizer and Richard Cyganiak. D2R Server – Publishing Relational Databases on the Semantic Web table
  • Pablo N. Mendes, Max Jakob and Christian Bizer. DBpedia for NLP: A Multilingual Cross-domain Knowledge Base. Proceedings of the International Conference on Language Resources and Evaluation, LREC 2012
  • Sören Auer und Sebastian Hellmann. The Web of Data: Decentralized, collaborative, interlinked and interoperable In: LREC 2012,http://www.lrec-conf.org/proceedings/lrec2012/keynotes/LREC%202012.Keynote%20Speech%201.Soeren%20Auer.pdf
  • http://sabre2012.infai.org/mlode

 

Subscribe To Our Newsletter

Subscribe To Our Newsletter

Join our mailing list to receive the latest news and updates from our team.

You have Successfully Subscribed!

Scroll to Top