PostGraduate Theses GRI-2017-19153

Title:Μέθοδοι ανάλυσης δικτύων σε ιατρικά δεδομένα
Network Analysis Methods for Medical Data
Authors:Μπάλτσιου Γεωργία Παύλου
Department: Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής
Language:Greek
Publ. Date:2017
Abstract:Στην παρούσα διπλωματική εργασία πραγματοποιείται η οπτικοποίηση και ανάλυση δοθέντων ιατρικών δεδομένων δύο διαφορετικών συνόλων δεδομένων μέσω γράφων. Το πρώτο αφορά 273 ασθενείς και 12 ιδιότητές τους, ενώ το δεύτερο 106 ασθενείς και 30 ιδιότητές τους. Στα πλαίσια της συγκεκριμένης εργασίας, γίνεται επιλογή και χρήση εργαλείων από το πεδίο της Ανάλυσης Δικτύων (Network Analysis) προκειμένου να αναλυθούν τα προαναφερθέντα δεδομένα. Τα δίκτυα ή γράφοι, αποτελούνται από τις οντότητες που συσχετίζονται με κάποιο τρόπο μεταξύ τους, που ονομάζονται κόμβοι. Οι κόμβοι αυτοί συνδέονται μεταξύ τους με γραμμές που ονομάζονται ακμές, οι οποίες αναπαριστούν μια κοινή ιδιότητα των σχετιζόμενων κόμβων, τον λόγο δηλαδή για τον οποίο σχετίζονται οι συγκεκριμένοι κόμβοι. Στη περίπτωση της παρούσας εργασίας, εξετάζονται δύο περιπτώσεις γραφημάτων: στην πρώτη οι ασθενείς αποτελούν τους κόμβους και οι ακμές αναπαριστούν τη συσχέτιση των ασθενών με βάση τις κοινές ιδιότητες που αυτοί παρουσιάζουν, για παράδειγμα εάν και οι δύο ασθενείς παρουσιάζουν διαβήτη. Στη δεύτερη περίπτωση, οι κόμβοι αντιπροσωπεύουν τις 12 ή τις 30 προαναφερθείσες ιδιότητες και οι ακμές μεταξύ αυτών παρουσιάζονται όταν ασθενείς παρουσιάζουν ταυτόχρονα τις συνδεόμενες ιδιότητες. Προκειμένου να δημιουργηθούν τα παραπάνω γραφήματα αρχικά συγκεντρώθηκαν και προεπεξεργάστηκαν τα δεδομένα ώστε να είναι στην κατάλληλη μορφή προς περαιτέρω επεξεργασία. Μέσω κώδικα γραμμένου σε γλώσσα προγραμματισμού python, μοντελοποιήθηκαν τα δεδομένα σε κόμβους και ακμές. Επίσης σε python, υπολογίσθηκαν οι αποστάσεις μεταξύ ασθενών ή ιδιοτήτων όπως και η ομοιότητα ή η συσχέτισή τους χρησιμοποιώντας πέντε συγκεκριμένες μετρικές. Η απόσταση είναι ένα μέγεθος που χρησιμοποιείται για να μετρηθεί η διαφορετικότητα μεταξύ των συγκρινόμενων μεγεθών. Αντιθέτως η ομοιότητα ποσοτικοποιεί το πόσο μοιάζουν τα αντικείμενα σύγκρισης. Η συσχέτιση, μετρά κατά πόσο δύο μεγέθη σχετίζονται μεταξύ τους ή όχι. Οι μετρικές αποστάσεων που εξετάσθηκαν είναι οι Ευκλείδεια απόσταση και η απόσταση Manhattan. Οι μετρικές ομοιότητας είναι οι ομοιότητα Συνημίτονου και η Jaccard. Η μετρική ομοιότητας που χρησιμοποιήθηκε είναι η Pearson. Το εργαλείο που χρησιμοποιήθηκε για την οπτικοποίηση και περαιτέρω επεξεργασία των γραφημάτων, είναι το Gephi. Μέσω αυτού, δημιουργήθηκαν τα διάφορα γραφήματα και παρουσιάζονται παρακάτω ανά μετρική. Επίσης χρησιμοποιήθηκε φίλτρο ακμών που παρέχεται από το παραπάνω εργαλείο προκειμένου να μην είναι τόσο πυκνοί οι γράφοι και άρα να μελετηθούν καλύτερα. Σε κάθε γράφο που προέκυψε υπολογίσθηκε μια μετρική που ονομάζεται Modularity προκειμένου να εντοπιστούν πιθανές κοινότητες. Επίσης, χρησιμοποιήθηκε η παράμετρος Resolution, που υποδηλώνει το μέγιστο μέγεθος της μικρότερης κοινότητας που μπορεί να προκύψει. Μετά την διεξαγωγή των διαφόρων πειραμάτων, παρατηρήθηκε πως το Modularity κυμαινόταν μεταξύ 0 και 0,4. Εν συγκρίσει με άλλους παρόμοιους γράφους της βιβλιογραφίας, οι τιμές από 0,3 και πάνω θεωρούνται καλές. Επίσης, την καλύτερη επίδοση ως προς το Modularity φάνηκε να έχει στο πρώτο σύνολο δεδομένων η μετρική της ευκλείδειας απόστασης και αυτή της απόστασης Manhattan, ενώ στο δεύτερο σύνολο δεδομένων η μετρική Pearson. Τη χειρότερη επίδοση είχε η Pearson στην πρώτη περίπτωση, ενώ στη δεύτερη η μετρική Manhattan. Όσον αφορά τις μελλοντικές κατευθύνσεις, επιπλέον χρήσιμη πληροφορία θα μπορούσε να προκύψει από τη διερεύνηση της αιτιότητας, δηλαδή, η ανακάλυψη σχέσεων μεταξύ συσχετιζόμενων οντοτήτων πέρα από την όποια σχέση έχει προκύψει στατιστικά ή πειραματικά μέσω μετρικών

This thesis offers a graph visualization and analysis of medical data of two datasets. The first consists of data of 273 different patients and 12 properties of them, while the second is about 106 different patients and 30 properties of them. Within this thesis, specific tools, usually used in the field of Network Analysis, are chosen and used to analyze the former data. So networks or graphs, consist of entities which are correlated with each other in a way, and are called nodes. These nodes are associated with each other via lines which are called edges. The edges represent a common property of the nodes that they combine. In this thesis, two cases of networks are examined: in the first, the nodes represent the patients and the edges the correlation between them based on their common properties. In the second case, the nodes represent the abovementioned 12 or 30 properties and there exist edges between them when the two patients suffer both from the correlated properties. In order to create the above graphs, at first the data were gathered and preprocessed so to be at the proper state for further processing. Via code which was written in the python programming language, the data were modeled into nodes and edges. Afterwards, the distance, similarity and correlation between patients or properties were computed, also via python code. For the former computations five specific metrics were used. Distance is a numerical description of how far apart objects are. Contrariwise, similarity is a numerical description of how close objects are. Correlation, meters if there is a relationship between two objects or not. The distance metrics that were examined here were Euclidean distance and Manhattan distance. The similarity metrics were Cosine similarity and Jaccard similarity and the correlation metric that was examined was Pearson correlation. Gephi was the tool which was used to visualize and further process the graphs. Via this tool, different graphs were created and are presented below per metric. An edge filter that is provided by Gephi was also used in order to make graphs sparser so to be able to analyze them in a better way. In every graph created, a metric called Modularity was computed. This metric helps someone to find possible communities. In addition, another metric called Resolution was used, in order to specify the maximum size of the smaller possible community created. After the conduction of various experiments, it was observed that Modularity laid between 0 and 0.4. In comparison to similar graphs of the bibliography, Modularity values from 0.3 and above are considered fairly well. Besides this, the best performance in the first dataset succeeded the Euclidean and the Manhattan distance metrics, while in the second dataset the best performance was from the Pearson correlation. The worst performance was from Pearson correlation and Manhattan distance respectively. In conclusion, it may be useful to find out more about the causality, videlicet, finding out relations between the correlated objects apart from these that can be found from statistical or experimental methods
Supervisor:Τσίχλας Κωνσταντίνος, λέκτορας
Keywords:Network analysis, Graphs, Γράφοι, Κοινότητες, Communities, Ανάλυση δικτύων
Related files:Fulltext: PDF File with license Δείτε την σχετική άδεια κάνοντας κλικ εδώ!


 Record created 2017-04-19, last modified 2017-04-24


Fulltext:
Download fulltext
PDF File
with license:Δείτε την σχετική άδεια κάνοντας κλικ εδώ!