Μεταπτυχιακές Διατριβές GRI-2014-13294

Τίτλος: A distributed approach on early trending topics prediction on social network services
Μια κατανεμημένη προσέγγιση για την έγκαιρη πρόβλεψη των δημοφιλών θεμάτων στα μέσα κοινωνικής δικτύωσης
Συγγραφείς:Κιτμερίδης Νικόλαος Ιωάννη, Πανουργιά Μαρία Νικολάου
Σχολή/Τμήμα: Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής
Γλώσσα:Αγγλικά
Ημ/νία έκδοσης:2014
Περίληψη:Η εργασία αυτή πρόκειται να εμβαθύνει στην περιοχή των “Social Network Analytics”. Ειδικότερα, πρόκειται να μελετηθεί το πρόβλημα της πρόβλεψης, σε πραγματικό χρόνο, των δημοφιλών θεμάτων (trending topics), που εμφανίζονται στα μέσα κοινωνικής δικτύωσης. Τα δημοφιλή θέματα των κοινωνικών δικτύων είναι από τη φύση τους πολύ σημαντικά, καθώς δίνουν άμεσα μια εικόνα για το, τι ενδιαφέρει τους ανθρώπους και την κοινωνία γενικότερα, μια συγκεκριμένη χρονική στιγμή. Ακόμα, τα δημοφιλή θέματα, μέσω της μεγάλης προβολής που λαμβάνουν, μπορούν να επηρεάσουν την κοινή γνώμη, για το τι θεωρείται επίκαιρο (trend) αλλά και την άποψη τους πάνω σε διάφορα κοινωνικά ζητήματα. Στην εργασία αυτή το ζήτημα της πρόβλεψης των δημοφιλών θεμάτων προσεγγίζεται από την σκοπιά της κατηγοριοποίησης χρονοσειρών, σε πραγματικό χρόνο. Οι χρονοσειρές αυτές, αναπαριστούν τη συχνότητα εμφάνισης των υπό μελέτη θεμάτων, στα μηνύματα που δημοσιεύουν οι χρήστες των κοινωνικών δικτύων, στον άξονα του χρόνου. Για την ταξινόμηση των χρονοσειρών εφαρμόστηκε ένα μοντέλο επιβλεπόμενης μάθησης που βασίζεται στο μοντέλο των λανθανουσών πηγών (“latent source model”). Προκειμένου να αξιολογηθεί η παραπάνω μέθοδος ταξινόμησης, σχεδιάστηκε ένα κατανεμημένο πλαίσιο μέσα στο οποίο γίνεται η εκτέλεση της προαναφερθείσας μεθόδου ώστε να επιτευχθεί η πρόβλεψη των δημοφιλών θεμάτων (trending topics) του κοινωνικού δικτύου Twitter. Η κύρια συνεισφορά της εργασίας αυτής είναι ότι η πρόβλεψη των δημοφιλών θεμάτων πραγματοποιείται σε πραγματικό χρόνο. Η πρόβλεψη σε πραγματικό χρόνο προϋποθέτει την επεξεργασία ροών δεδομένων μεγάλου όγκου, ως εκ τούτου είναι απαραίτητη η χρήση εργαλείων και τεχνικών για την κατανεμημένη διαχείριση μεγάλου όγκου δεδομένων (Big Data). Ειδικότερα, για τις ανάγκες της εφαρμογής αναπτύχθηκε μιακατανεμημένη αρχιτεκτονική πολλών επιπέδων. Το κύριο χαρακτηριστικό της αρχιτεκτονικής αυτής είναι ότι επιτρέπει την ταυτόχρονη εφαρμογή “stream analysis” και “batch analysis” σε ένα κοινό σύνολο δεδομένων. Στην συγκεκριμένη εφαρμογή η “stream analysis” συνεισφέρει στην δημιουργία, την ανανέωση και την ταξινόμηση των χρονοσειρών που αντιστοιχούν στα πιθανά δημοφιλή θέματα. Ενώ η “batch analysis” συνεισφέρει τόσο στην δημιουργία όσο και στην σταδιακή βελτίωση του αρχικού συνόλου εκπαίδευσης. Η αξιολόγηση των αποτελεσμάτων της μεθόδου, δηλαδή των δημοφιλών θεμάτων που εμφανίζονται στο κοινωνικό δίκτυο Twitter, γίνεται με βάση τα δημοφιλή θέματα που αναρτά το ίδιο το δίκτυο ανά τακτά χρονικά διαστήματα.

Αγγλική Περίληψη This thesis is going to deepen into the area of “Social Network Analytics”. In particular, the problem of predicting, in real time, of popular topics (trending topics), appearing in social media is going to be studied. The popular topics of social networks are, by their nature, of utmost importance as they give immediate information about what individuals and the society are interested in, at a specific time period. Furthermore, popular topics, through the high visibility they obtain could affect public opinion, about what is considered trend or even their views on various social issues. In this thesis the problem of popular topics prediction is approached from the perspective of time series real time classification. These time series represent the occurrence frequency of the under study topics in the messages published by social media users, in the axis of time. The time series classification is implemented through a supervised learning method based on a latent source model. In order to perform and evaluate the aforementioned classification method, a distributed framework is going to be implemented so as to predict real time trends in Twitter. The main contribution of this thesis is that trend prediction is performed in real time fashion and thus several tools and techniques of the field of Big Data are used. In particular, the architecture of the implemented framework is inspired of the so called Lambda architecture. The main characteristic of Lambda architecture is that it enables stream and batch analysis to be performed simultaneously in the a common dataset. In this experimental scenario stream analysis is used in order to create, track and classify the topics’ time series. Whereas the batch analysis is used so as to create as well as to perform incremental improvement of the initial training set.
Επιβλέπων:Βακάλη Αθηνά, Καθηγήτρια
Λέξεις Κλειδιά:Big Data, Αρχιτεκτονική κατανεμημένης επεξεργασίας, Μεγάλου όγκου δεδομένα, Social Networks, Κοινωνικά Δίκτυα, Distributed processing architecture
Σχετικά αρχεία:Πλήρες κείμενο: PDF Αρχείο με άδεια χρήσης Δείτε την σχετική άδεια κάνοντας κλικ εδώ!


 Δημιουργία εγγραφής 2014-11-13, τελευταία τροποποίηση 2015-04-30


Πλήρες κείμενο:
Κατέβασμα πλήρους κειμένου
PDF Αρχείο
με άδεια:Δείτε την σχετική άδεια κάνοντας κλικ εδώ!