Καταπολέμηση της ανισορροπίας των κλάσεων με τη χρήση των Conditional GANs στην ιατρική απεικόνιση για τη διάγνωση της πνευμονίας
View/ Open
Keywords
Generative adversarial networks ; CNN ; Class imbalance ; Pneumonia ; Classification ; Medical imaging ; Deep learning ; Diagnosis ; cGANs ; GANs ; WGAN ; OversamplingAbstract
Η αποτελεσματική διαχείριση των ιατρικών δεδομένων είναι σημαντική για τη διασφάλιση της αξιοπιστίας των συστημάτων ανίχνευσης με τη βοήθεια υπολογιστή (computer-aided detection-CAD) στη διάγνωση και στην επιλογή θεραπείας. Η παρούσα εργασία επικεντρώνεται στην πρόκληση της ανισορροπίας των κλάσεων στο πλαίσιο της διάγνωσης της πνευμονίας σε παιδιατρικό πληθυσμό με τη χρήση εικόνων ακτινογραφίας θώρακος. Η ανισορροπία των κλάσεων μπορεί να αλλοιώσει τις προβλέψεις, μειώνοντας τη διαγνωστική ακρίβεια. Στο πλαίσιο αυτό, χρησιμοποιούνται συνελικτικά νευρωνικά δίκτυα για τη δημιουργία ενός ταξινομητή και αξιοποιούνται καινοτόμες τεχνικές, συγκεκριμένα τα Conditional Generative Adversarial Networks (cGANs) ως τεχνική Oversampling, για την αντιμετώπιση αυτού του ζητήματος.
Η εργασία αποτελείται από τρία βασικά μεθοδολογικά στάδια. Στο πρώτο στάδιο, δημιουργείται, εκπαιδεύεται και αξιολογείται ένας ταξινομητής χρησιμοποιώντας τα προ-εκπαιδευμένα μοντέλα, ResNet-18, DenseNet-121, Mobile_NetV2, ResNet-34 και VGG-16. Στο δεύτερο στάδιο, εφαρμόζονται τεχνικές βελτιστοποίησης του Classifier. Χρησιμοποιήθηκαν παραδοσιακές μέθοδοι όπως η χρήση του Weighted Random Sampler και πιο μοντέρνες όπως τα cGANs.
Όσον αφορά τα GANs, χρησιμοποιήθηκαν διάφορες αρχιτεκτονικές βελτιστοποίησης, με την αρχιτεκτονική WGAN-GP (Wasserstein GAN-Gradient Penalty) να θεωρείται η πιο κατάλληλη για την επίλυση του προβλήματος. Βασιζόμενοι σε αυτήν την αρχιτεκτονική, ξεκίνησε η ρύθμιση (fine-tuning) των υπερπαραμέτρων του παραγωγικού δικτύου, μέχρι να επιτευχθεί όσο το δυνατό καλύτερο οπτικό αποτέλεσμα στα συνθετικά δείγματα. Αφού εκτελέστηκαν μια σειρά από πειράματα αλλάζοντας τις υπερπαραμέτρους και πολλές δοκιμές, καταλήξαμε σε τρία μοντέλα cGAN: Το πρώτο cGAN ονομάστηκε cGAN (RMSProp), καθώς η κύρια αλλαγή ήταν η χρήση του RMSprop βελτιστοποιητή. Το δεύτερο ονομάστηκε cGAN (64 εποχές και Adam Optimizer) λόγω του αριθμού εποχών και της χρήσης του βελτιστοποιητή Adam και το τρίτο cGAN, cGAN (5 εποχές 128χ128), λόγω του μικρού αριθμού εποχών, αλλά και του διαφορετικού μεγέθους εικόνων 128x128.
Στο τρίτο στάδιο, τα συνθετικά δεδομένα, τα οποία παράγονται από τα τρία παραπάνω cGAN, ενσωματώνονται στο σύνολο εκπαίδευσης για την ενίσχυση της κατηγορίας μειονότητας, Normal.
Από τη σύγκριση των μοντέλων που εκπαιδευτήκαν με την προσθήκη συνθετικών δειγμάτων από τα τρία διαφορετικά cGAΝ και με βάση τα προεκπαιδευμένα μοντέλα που χρησιμοποιήθηκαν για την εκπαίδευση του ταξινομητή, διαπιστώνεται ότι το ResNet-18 είχε σταθερά καλές επιδόσεις σε πολλαπλές μετρικές, παρουσιάζοντας συχνά τις υψηλότερες τιμές. Αντίθετα, το MobileNet_v2, παρά τις εξαιρετικές επιδόσεις του στο recall, παρουσίαζε χαμηλά αποτελέσματα σε όλες τις υπόλοιπες μετρικές (Precision, F1-Score, Accuracy). To ResNet-34 πετυχαίνει και αυτό αξιοσημείωτα αποτελέσματα στο recall, αλλά υστερεί ελαφρώς σε precision σε σύγκριση με το ResNet-18 και το DenseNet-121. Tέλος, το DenseNet-121 επιδεικνύει συνέπεια αλλά συχνά υπολείπεται του ResNet-18 σε precision και accuracy ανάλογα με τα συνθετικά δείγματα που χρησιμοποιήθηκαν.
Ακόμη, λαμβάνοντας υπόψη τον αντίκτυπο των δειγμάτων cGAN στην απόδοση του ταξινομητή, τα συνθετικά δείγματα από το cGAN(128x128) τείνουν να έχουν καλύτερο αντίκτυπο στην ενίσχυση των μετρικών precision, F1-Score, accuracy, που είναι κρίσιμοι δείκτες απόδοσης για έναν ταξινομητή σε σύγκριση με τα δείγματα από τα cGAN(RMSprop) και cGAN(Adam). Επιπλέον, το ResNet-18 αναδεικνύεται ως ένα ευέλικτο προ-εκπαιδευμένο μοντέλο που παρουσιάζει αρκετά υψηλές τιμές σε διάφορες μετρικές απόδοσης με όποια σχεδόν συνθετικά δείγματα από cGAN και αν χρησιμοποιήθηκαν.
Στη συνέχεια, συγκρίθηκε η απόδοση του μοντέλου ως προς τις μετρικές precision, recall, f1-score και accuracy συγκρίνοντας τα αποτελέσματα του αρχικού μοντέλου (No GAN) στο οποίο δε χρησιμοποιήθηκαν συνθετικές εικόνες σε σχέση με τα μοντέλα που χρησιμοποιήθηκαν συνθετικές εικόνες παραγόμενες από τα παραπάνω cGAN. Έτσι, μελετήθηκε η συμβολή της χρήσης του cGAN στη βελτιστοποίηση του ταξινομητή ως προς τη μειωτική κλάση (Normal) άλλα και η επίδραση που είχαν τα προεκπαιδευμένα μοντέλα στην απόδοση του ταξινομητή. Από αυτή τη συγκριτική ανάλυση, προέκυψε ότι το μοντέλο με συνθετικά δείγματα από το cGAN (128x128) σε συνδυασμό με το ResNet-18 υπερτερεί σταθερά έναντι των άλλων μοντέλων όσον αφορά τo precision, το F1-Score και τo Accuracy.
Συμπερασματικά, μετά τη διεξαγωγή αρκετών πειραμάτων και διαφορετικών αρχιτεκτονικών επιτεύχθηκε ο στόχος και με τη χρήση cGAN βελτιστοποιήθηκε η απόδοση του ταξινομητή ως προς τη μειωτική κλάση (Normal) του Chest Xray Dataset που επιλέχθηκε για τις ανάγκες της συγκεκριμένης εργασίας.
Συνολικά, αναγνωρίζεται το μετασχηματιστικό δυναμικό των cGANs για τον μετριασμό της ανισορροπίας των κλάσεων στην ανάλυση ιατρικών εικόνων. Ωστόσο, απαιτείται περαιτέρω έρευνα για την ενίσχυση και επέκταση αυτών των μεθοδολογιών, διασφαλίζοντας παράλληλα τη δεοντολογική και ασθενοκεντρική εφαρμογή τους.