Εξόρυξη και ανάλυση ανοικτών δεδομένων Twitter

Από τις Μαρία Τσαχειρίδου και Δήμητρα Τσελιγκάκη

Η παρούσα μελέτη πραγματοποιήθηκε ως μέρος του μαθήματος «Τεχνολογίες Ιστού και Ανάλυση Δεδομένων» του προγράμματος μεταπτυχιακών σπουδών του τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας και ως σκοπό έχει να φέρει τους αναγνώστες πιο κοντά στην κατανόηση αλλά και στη χρήση ανοικτών διασυνδεδεμένων δεδομένων (linked open data), τα οποία αναμφισβήτητα τα τελευταία χρόνια έχουν ενταθεί σε ολοένα και περισσότερους κλάδους.

Τι είναι τα ανοικτά δεδομένα; Πότε ξεκίνησε η αξιοποίηση των δεδομένων αυτών; Ποια είναι η σημασία τους;

Σύμφωνα με το opendefinition.orgτα ανοικτά δεδομένα και το περιεχόμενο μπορούν ελεύθερα να χρησιμοποιηθούν, να τροποποιηθούν και να διαμοιραστούν από τον καθένα για οποιονδήποτε σκοπό. Η παγκόσμια τράπεζα κατηγοριοποιεί αυτά τα δεδομένα σε τεχνολογικά και νομικά ανοικτά. Τα τεχνολογικά ανοικτά είναι διαθέσιμα σε μια μορφή που μπορεί να γίνει κατανοητή από υπολογιστές (machine-readable), γεγονός που τα καθιστά ανακτήσιμα και επεξεργάσιμα από εφαρμογές. Ενώ τα νομικά ανοικτά έχουν ρητή άδεια που να επιτρέπει εμπορική χρήση και επαναχρησιμοποίηση χωρίς περιορισμούς.

Εντυπωσιακό, είναι το γεγονός πως παρόλο που η έννοια των ανοικτών δεδομένων είναι σχετικά πρόσφατη, ήδη από τις αρχές του 1940 προτάθηκε η ιδέα της κοινής χρήσης των αποτελεσμάτων ερευνών από τον Robert,King,Merton. Ωστόσο, μόνο τα τελευταία χρόνια γίνονται σημαντικές μαζικές προσπάθειες να παρέχονται ανοικτά δεδομένα σε όλους τους χρήστες. Συνηθέστερα, τα ανοικτά δεδομένα δημοσιεύονται ως συνδεδεμένα ανοικτά δεδομένα (linked open data), ώστε να μπορούν να διασυνδεθούν με άλλα δεδομένα και να χρησιμοποιείται ο ιστός σαν μια ανοικτή βάση δεδομένων.

Η Ευρωπαϊκή Ένωση κάνει συντονισμένες ενέργειες ώστε ολοένα και περισσότεροι κρατικοί οργανισμοί να «απελευθερώνουν» τα δεδομένα στο ευρύ κοινό. Έτσι πολλές χώρες πλέον, διαθέτουν πύλες ανοικτών κυβερνητικών δεδομένων. Χαρακτηριστικά παραδείγματα για την Ελλάδα είναι ο επίσημος κεντρικός κατάλογος Ελληνικών δημόσιων δεδομένων http://data.gov.gr/ και το portal της Ελληνικής στατιστικής αρχής http://www.statistics.gr/portal/page/portal/ESYE. Ήδη, με την πρωτοβουλία των κυβερνήσεων και άλλων οργανισμών να διαθέσουν τα δεδομένα τους, εκτιμήθηκε πως το 2010 το μέγεθος της σχετικής αγοράς στην ΕΕ ήταν στα 32 δισ. ευρώ με 7% ετήσια αύξηση, ενώ το 2013 το McKinsey Global Institute εκτίμησε την ετήσια παγκόσμια δυνητική αξία των ΑΔ σε $3 trillion. Γεγονός που είναι βάσιμο, αν λάβει κανείς υπ’ όψιν του τις πολλαπλές χρήσεις των δεδομένων αυτών σε ποικίλους τομείς, όπως την ιατρική, τη δημοσιογραφία, την οικονομία, τον τουρισμό κ.λπ.

Η υπηρεσία Influence Tracker και τα δεδομένα του Twitter

Πρόκειται για μια υπηρεσία η οποία ξεκίνησε ως μέρος μιας PhD έρευνας του Ραζή Γεράσιμου (https://gr.linkedin.com/in/gerasimosrazis) και του Αναγνωστόπουλου Ιωάννη (http://www.anagnostopoulos.name/) για τον υπολογισμό της σημασίας και της επιρροής ενός λογαριασμού στο Twitter.

Προτείνεται λοιπόν μια οντολογία για τη σημασιοποίηση των λογαριασμών Twitter και των πληροφοριών που διαδίδονται καθώς και των αντίστοιχων οντοτήτων ως Linked Data, όπου οι χρήστες μπορούν να αναζητήσουν οποιονδήποτε λογαριασμό Twitter επιθυμούν, ανακαλύπτοντας μετρήσεις απευθείας από τις πληροφορίες που παρέχονται από το Twitter.

Για παράδειγμα η αναζήτηση του λογαριασμού του Chris Cornell μέσω της υπηρεσίας Influence Tracker, μας επέστρεψε τα παρακάτω δεδομένα:

Παράλληλα όμως, η υπηρεσία μας παρέχει την δυνατότητα να θέσουμε στοχευμένα ερωτήματα στο Sparql Endpoint ώστε να αντλήσουμε συγκεκριμένα δεδομένα τα οποία στη συνέχεια μπορούμε να τα χρησιμοποιήσουμε σε γραφικές απεικονίσεις στατιστικές αναλύσεις κ.λπ.

Ανάλυση των λογαριασμών Twitter της παγκόσμιας και ελληνικής πολιτικής σκηνής

Όπως είναι γνωστό, παγκοσμίως η χρήση τουTwitter είναι ιδιαίτερα διαδεδομένη και προσφιλής στα πολιτικά πρόσωπα. Έτσι, οι λογαριασμοί τους οποίους μελετήσαμε μέσω της υπηρεσίας Influence Tracker και για τους οποίους χρησιμοποιήσαμε δεδομένα σχετίζονται με πολιτικούς τόσο της Ελλάδας όσο και του εξωτερικού χωρίς να σημαίνει όμως ότι το παρόν άρθρο υπηρετεί πολιτικές σκοπιμότητες, εφόσον η παρουσίαση αυτή γίνεται καθαρά για εκπαιδευτικούς σκοπούς.

Αρχικά, θέσαμε ερωτήματα για να λάβουμε τα παρακάτω δεδομένα για τους Έλληνες πολιτικούς βάσει κάποιων ερωτημάτων. Τα δεδομένα που αποκομίσαμε, οπτικοποιήθηκαν και προέκυψαν τα εξής γραφήματα:

Σε αυτό το γράφημα απεικονίζονται κάποια από τα accounts που έχουν χρησιμοποιήσει το hashtag #Greece στα tweets τους. Τα άτομα αυτά ανήκουν στον πολιτικό χώρο. Παράλληλα, βλέπουμε τον αριθμό των followers που έχουν προκειμένου να κατανοήσουμε και σχηματικά τη «δύναμη» των προσώπων – οργανισμών στα κοινωνικά δίκτυα με βάση τον αριθμό αυτό. Τα ονόματα των προσώπων-οργανισμών δίνονται σε μορφή ονόματος account ώστε να μπορούν
εύκολα να αναζητηθούν στο Twitter για περαιτέρω πληροφορίες.

Σε αυτό το δεύτερο γράφημα απεικονίζεται η χρήση τεσσάρων hashtags σχετικών με την πολιτική κατάσταση της χώρας (#crisis #eurogroup #grexit #mnimonio) από λογαριασμούς που συνδέονται μεταξύ τους με αμοιβαία σχέση follower-following. Το μέγεθος του κύκλου αφορά την επιρροή (influence) των accounts του άξονα Χ στο Twitter. Από εδώ βγαίνουν συμπεράσματα όπως η συχνότητα χρήσης των hashtags καθώς και οι σχέσεις μεταξύ γνωστών accounts. Πολλά από τα accounts αυτά αφορούν γνωστά blog και πρόσωπα της πολιτικής.

Στο τρίτο κατά σειρά γράφημα, απεικονίζονται τα Top accounts με τη μεγαλύτερη επιρροή στο Twitter, που αναφέρουν το account <atsipras> σε tweet τους. Οι λογαριασμοί είναι ομαδοποιημένοι σε clusters ανάλογα με τα tweets per day. Με αυτόν τον τρόπο έχουμε μια εικόνα αφενός των σημαντικών λογαριασμών που έχουν ασχοληθεί με ένα ισχυρό πρόσωπο της χώρας και αφετέρου συγκρίνουμε με τον αριθμό των tweets που κάνουν κατά μέσο όρο την ημέρα.

Τα κέντρα του κάθε cluster, φαίνονται στον παρακάτω πίνακα, όπου είναι φανερές και οι μεγάλες διαφορές της πρώτης με την τελευταία ομάδα.

Clusters

Number of Items Centers

Max. Tweets per day

Cluster 1 38 6.2061
Cluster 2 1 223.05
Cluster 3 3 130.03
Cluster 4 5 42.896
Cluster 5 1 628.27
Cluster 6 2 183.09
Not Clustered 0

 

Στη συνέχεια, προσπαθώντας να συγκρίνουμε την παρουσία δύο αξιοσημείωτων πολιτικών παγκόσμιας κλίμακας, στο Twitter, θέσαμε κάποια ερωτήματα προσπαθώντας να συλλέξουμε δεδομένα για τα παρακάτω:

Επιλέξαμε ένα σύνολο 1000 hashtags που περιέχουν υποσύνολα hashtags, το καθένα από τα οποία έχει χρησιμοποιηθεί από  τον Donald Trump τουλάχιστον μία φορά και τα έχουν χρησιμοποιήσει και άλλοι χρήστες. Αντίστοιχα επιλέχθηκαν ένα σύνολο 1000 hashtags που έχει χρησιμοποιήσει ο Barack Obama και άλλοι χρήστες.

Λαμβάνοντας τα δεδομένα τα οπτικοποιήσαμε στο παρακάτω γράφημα, όπου φιλτράραμε τα hashtags ώστε να εμφανίζονται όσα έχουν χρησιμοποιήσει τουλάχιστον 10 χρήστες, πέραν του Donald Trump. Όπως φαίνεται, το hashtag με τις περισσότερες εμφανίσεις είναι το #facebook.

Αντίστοιχα, τα δεδομένα που αποκομίσαμε όταν τρέξαμε το ερώτημα για Barack Obama τα χρησιμοποιήσαμε στο παρακάτω γράφημα. Σε αυτή την περίπτωση το hashtag με τις περισσότερες χρήσεις είναι το #cop21.

 Εν συνεχεία, αναζητήσαμε τους 100 λογαριασμούς Twitter οι οποίοι ακολουθούν τον Donald Trump. Αντίστοιχη αναζήτηση έγινε και  για τον Barack Obama.

Οι followers του Barack Obama ομαδοποιήθηκαν σε 3 σύνολα βάσει του ποσοστού επιρροής τους, όπως φαίνεται και στο προηγούμενο γράφημα. Από τα στατιστικά που προκύπτουν, οι περισσότεροι followers είναι συγκεντρωμένοι στο σύνολο 3 το οποίο έχει τα χαμηλότερα ποσοστά επιρροής των followers και το κέντρο του ισούται με 3475,5.

Οι followers του Donald Trump, ομοίως ομαδοποιήθηκαν σε 3 σύνολα βάσει του ποσοστού επιρροής τους, όπως φαίνεται και στο προηγούμενο γράφημα. Από τα στατιστικά που προκύπτουν, οι περισσότεροι είναι συγκεντρωμένοι στο σύνολο 2 το οποίο έχει τα μεσαία ποσοστά επιρροής των followers και το κέντρο του ισούται με 3853,4.

Φαινομενικά, οι followers του Donald Trump φαίνεται να έχουν μεγαλύτερη επιρροή, αλλά  παρατηρώντας λεπτομερέστερα, τα κέντρα των 3 συνόλων των followers του Barack Obama φαίνεται ότι σε κάθε περίπτωση η τιμή του κάθε συνόλου είναι υψηλότερη. Άλλωστε, αυτό αποδεικνύεται και αν συγκρίνει κανείς τις διαμέτρους των κύκλων ανάμεσα στα δύο γραφήματα.

Χρησιμοποιώντας δεδομένα  από κοινούς χρήστες του Twitter και το ποσοστό retweets τους πήραμε ένα γράφημα τύπου barchart.

Στη συνέχεια, αφού ομαδοποιήσαμε τους χρήστες βάσει του ποσοστού retweet, κρατήσαμε την ομάδα στην οποία ανήκουν και τα ποσοστά retweet των Obama και Trump αντίστοιχα.

Στο ραβδόγραμμα αυτό φαίνεται η μέση τιμή  (92,00) του ποσοστού retweet, η οποία συμπίπτει σχεδόν με το ποσοστό retweet του Donald Trump (92,03), ενώ ο Barack Obama υπολείπεται με ποσοστό  (83,00).

Τέλος, αυτές είναι οι εικόνες τα URL των οποίων ανακτήθηκαν από τους λογαριασμούς των Donald Trump και Barack Obama αντίστοιχα, μέσω του προγράμματος Influence Tracker.

 Κλείνοντας, αυτές δεν είναι παρά ελάχιστες από τις δυνατότητες που μπορούν να μας προσφέρουν τα ανοικτά δεδομένα, τα οποία φαίνεται ότι στα επόμενα χρόνια θα αποκτούν όλο και περισσότερο κοινό, μεγαλύτερες εφαρμογές και καλύτερη αξιοποίησή τους. Το κυριότερο σημείο όμως αυτής της εξέλιξης είναι η αποδοχή της πρόκλησης για ελεύθερη διανομή των δεδομένων από περισσότερους οργανισμούς, κρατικούς και μη.

*Το άρθρο αυτό είναι αποτέλεσμα μελέτης της Τσαχειρίδου Μαρίας και της Τσελιγκάκη Δήμητρας στα πλαίσια του μαθήματος «Τεχνολογίες Ιστού και Ανάλυση Δεδομένων» του προγράμματος μεταπτυχιακών σπουδών του τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας υπό την επίβλεψη του καθηγητή Ταμπούρη Ευθύμιου.

 

Subscribe To Our Newsletter

Subscribe To Our Newsletter

Join our mailing list to receive the latest news and updates from our team.

You have Successfully Subscribed!

Scroll to Top