Πτυχιακές Εργασίες GRI-2013-10033

Τίτλος:Μελέτη προσεγγίσεων ομαδοποίησης μεγάλων συνόλων αρχείων κειμένου που προέρχονται από πηγές του Παγκόσμιου Ιστού σε κατανεμημένα υπολογιστικά περιβάλλοντα.
Συγγραφείς:Κιτμερίδης Νικόλαος.
Σχολή/Τμήμα: Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής
Γλώσσα:Ελληνικά
Φυσική Περιγραφή:114 σελ.
Ημ/νία έκδοσης:2012
Περίληψη:Ο Κοινωνικός Ιστός (Web 2.0) διευκόλυνε σε μεγάλο βαθμό την παραγωγή πληροφορίας στον Παγκόσμιο Ιστό από απλούς χρήστες του Διαδικτύου, με αποτέλεσμα τη δημιουργία ενός τεράστιου, συνεχώς αυξανόμενου όγκου δεδομένων, ο οποίος στην πλειοψηφία του αποτελείται από δεδομένα σε μορφή κειμένου. Η κατάσταση αυτή καθιστά επιτακτική την ανάγκη εύρεσης αυτοματοποιημένων τρόπων οργάνωσης αυτών των δεδομένων, σε λογικά χρονικά πλαίσια, έτσι ώστε να είναι δυνατή η διαχείριση τους από εφαρμογές και ιστοσελίδες του Παγκοσμίου Ιστού, όπως είναι οι μηχανές αναζήτησης, ειδησεογραφικά ιστολόγια, κ.α. Στα πλαίσια αυτής της διπλωματικής εργασίας, αρχικά μελετούνται σε θεωρητικό επίπεδο οι τεχνικές και οι αλγόριθμοι που εφαρμόζονται για την ομαδοποίηση δεδομένων κειμένου, αλλά και οι μετρικές που χρησιμοποιούνται για την αξιολόγηση των αποτελεσμάτων αυτής της διαδικασίας. Επίσης γίνεται μια επισκόπηση των γνωστότερων τεχνικών κατανεμημένης επεξεργασίας δεδομένων, αλλά και της αρχιτεκτονικής των κατανεμημένων υλοποιήσεων κάποιων αλγορίθμων ομαδοποίησης, που επιτρέπουν την αποδοτική ανάλυση μεγάλου όγκου δεδομένων σε εύλογα χρονικά πλαίσια. Το πρακτικό κομμάτι της εργασίας αφορά στη δημιουργία ενός πλαισίου για την ομαδοποίηση δεδομένων κειμένου σε κατανεμημένο περιβάλλον και την αξιολόγηση των αποτελεσμάτων. Τα βήματα που ακολουθήθηκαν για την υλοποίηση του πλαισίου συνοπτικά περιγράφονται ως εξής: i) ανάπτυξη μεθόδων προεπεξεργασία των δεδομένων κειμένου με σκοπό αυτή να οδηγήσει σε ποιοτικότερη ομαδοποίηση, ii) εκτέλεση της κατανεμημένης υλοποίησης του αλγορίθμου ομαδοποίησης k-means που προσφέρει το εργαλείο Apache Mahout σε διάφορα σύνολα δεδομένων κειμένου, εναλλάσσοντας τις παραμέτρους-συνθήκες του κατανεμημένου περιβάλλοντος με σκοπό τη χρονική αξιολόγηση, και iii) προγραμματιστική υλοποίηση κάποιων γνωστών μέτρων αξιολόγησης με στόχο την αξιολόγηση της ποιότητας των παραγόμενων ομάδων από κάθε εξεταζόμενο σύνολο δεδομένων.
Επιβλέπων:Βακάλη, Αθηνά.
Λέξεις Κλειδιά:Mahout, Ομαδοποίηση κειμένων, Document clustering, Hadoop
Σχετικά αρχεία:Πλήρες κείμενο: PDF Αρχείο με άδεια χρήσης Δείτε την σχετική άδεια κάνοντας κλικ εδώ!


 Δημιουργία εγγραφής 2013-02-07, τελευταία τροποποίηση 2015-04-30


Πλήρες κείμενο:
Κατέβασμα πλήρους κειμένου
PDF Αρχείο
με άδεια:Δείτε την σχετική άδεια κάνοντας κλικ εδώ!