Η βιομηχανία του κινηματογράφου είναι μία από τις μεγαλύτερες παγκοσμίως, με συνολικό τζίρο τα 38.3 δις δολάρια μόνο μέσα στο 2015. Ένα τόσο μεγάλο ποσό μας προτρέπει να αναλύσουμε δεδομένα που αφορούν την οικονομική κατάσταση των εταιριών διανομής. Ωστόσο η απόκτηση αυτών των δεδομένων είναι μεγάλο εμπόδιο για τον μέσο ερευνητή. Τη λύση στο πρόβλημα αυτό, δίνουν τα ανοιχτά διασυνδεδεμένα δεδομένα.
Όσο μεγαλώνει το “σύννεφο” των ανοιχτών διασυνδεδεμένων δεδομένων στον Ιστό, τόσο αυξάνονται και οι δυνατότητες που προσφέρονται σε επίδοξους ερευνητές να αναλύσουν τα δεδομένα αυτά και να εξάγουν χρήσιμα συμπεράσματα για όλους.
Στην εργασία που πραγματοποιήθηκε σε συνεργασία του Διατμηματικου Προγραμματος Μεταπτυχιακων Σπουδων στα Πολυπλοκα Συστηματα και Δικτυα με το Ίδρυμα Ανοικτής Γνώσης Ελλάδας, αντλήθηκαν και αναλύθηκαν δεδομένα που περιέχουν πληροφορίες για τις κορυφαίες εταιρίες διανομής μέσα στην περίοδο 2000-2014. Η διαδικασία που ακολουθήθηκε φαίνεται στο παρακάτω διάγραμμα ροής.
Τα δεδομένα της DBpedia προέρχονται από μη περιγραφικές μεθόδους εξαγωγής, από εγγραφές που έχουν επεξεργαστεί εκατομμύρια χρήστες στις σελίδες της Wikipedia. Για το λόγο αυτό, κατά την εξόρυξη των δεδομένων παρατηρήθηκαν πολλές ασυνέχειες στις εγγραφές της. Οι περισσότερες αφορούσαν:
- Διαφορετικές διατυπώσεις (Warner_Bros, Warner_Bros_Pictures)
- Αριθμητικές ασυνέχειες (10million, 10000000, 10E6)
- Διπλοεγγραφές
- Ορθογραφικά λάθη
Για το μαζικό καθαρισμό των παραπάνω εγγραφών χρησιμοποιήθηκε το Open Refine.
Η ανάλυση των δεδομένων χωρίστηκε σε 2 στάδια:
- Ανάλυση συνεργασιών μεταξύ των εταιριών διανομής.
- Αναζήτηση συσχετίσεων με στατιστικά μέτρα στα οικονομικά στοιχεία των εταιριών διανομής.
Αρχικά υπολογίστηκε το πλήθος και το ποσοστό ταινιών που κυκλοφόρησε κάθε εταιρία συνεργατικά με κάποια άλλη. Από την ανάλυση προέκυψε το παρακάτω δίκτυο συνεργασιών. Οι κόμβοι παριστάνουν τις εταιρίες διανομής, ενώ το πάχος των ακμών είναι ανάλογο του πλήθους των συνεργατικών κυκλοφοριών των αντίστοιχων εταιριών.
Αρχικά υπολογίστηκε το πλήθος και το ποσοστό ταινιών που κυκλοφόρησε κάθε εταιρία συνεργατικά με κάποια άλλη. Από την ανάλυση προέκυψε το παρακάτω δίκτυο συνεργασιών.
Οι κόμβοι παριστάνουν τις εταιρίες διανομής, ενώ το πάχος των ακμών είναι ανάλογο του πλήθους των συνεργατικών κυκλοφοριών των αντίστοιχων εταιριών.
Στη συνέχεια δημιουργήθηκαν χρονοσειρές υπολογίζοντας τα ετήσια έσοδα κάθε εταιρίας, στις οποίες αναζητήθηκαν συσχετίσεις μέσω:
- Γραμμικής συσχέτισης
- Αμοιβαίας πληροφορίας
- Αιτιότητας Granger
Τα δεδομένα και τα αποτελέσματα αυτά οπτικοποιούνται και είναι διαθέσιμα στον καθένα μέσω μιας διαδραστικής εφαρμογής που δημιουργήθηκε για το σκοπό αυτό, εδώ.
Συνολικά περιέχονται 6 καρτέλες:
- Network: Ο χρήστης προβάλλει και επεξεργάζεται το παραπάνω δίκτυο συνεργασιών.
- Bar Chart: Ο χρήστης προβάλλει το πλήθος και το ποσοστό των συνεργασιών με ένα ραβδόγραμμα.
- Pie Chart: Ο χρήστης προβάλλει το πλήθος και το ποσοστό των συνεργασιών με ένα κυκλικό διάγραμμα.
- Data: Ο χρήστης προβάλλει και κατεβάζει ελεύθερα όποιο κομμάτι της βάσης δεδομένων επιθυμεί.
- Time Series: Ο χρήστης προβάλλει τις χρονοσειρές εσόδων των εταιριών με διαγράμματα γραμμής.
- Statistics: Ο χρήστης προβάλλει τα αποτελέσματα της στατιστικής ανάλυσης, μέσω δικτύων.
Μεταξύ των αποτελεσμάτων, αξίζει να σημειωθεί πως το μεγαλύτερο ποσοστό συνεργατικών διανομών ήταν με μεγάλη διαφορά το 86,39% της Relativity Media. Το ενδιαφέρον όμως είναι πως στις 30 Ιουλίου 2015 η εταιρία κήρυξε πτώχευση. Σίγουρα είναι πολλοί οι παράγοντες που θα μπορούσαν να συντελέσουν σε κάτι τέτοιο, αλλά οπωσδήποτε δημιουργείται μια υπόθεση που αξίζει να μελετηθεί περαιτέρω.
Tο Σεπτέμβριο του 2016 στη Λειψία η εργασία αυτή καθώς και η εφαρμογή που δημιουργήθηκε παρουσιάστηκαν στο SEMANTiCS,
Livanos N., Bratsas C., Karampatakis S., and Antoniou I.,(2016), Knowledge Networks and Statistical Analysis of Cinematography Linked Data, in the annual SEMANTiCS conference, CEUR Workshop Proceedings, http://ceur-ws.org/Vol-1695/paper33.pdf