Small-object detection in remote sensing images and video
Master Thesis
Συγγραφέας
Orfanos, Stamatios
Ορφανός, Σταμάτιος
Ημερομηνία
2024-10Επιβλέπων
Maglogiannis, IliasΜαγκλογιάννης, Ηλίας
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Object detection ; Small object detection ; Visual transformer ; Remote sensing images ; Deep learning ; Machine learningΠερίληψη
Η ανίχνευση αντικειμένων σε εικόνες τηλεπισκόπησης αποτελεί μια δύσκολη πρόκληση για την ερευνητική κοινότητα της computer vision λόγω της παρουσίας μικρών ή πολύ μικρών αντικειμένων, τα οποία συχνά είναι δύσκολο να ανιχνευτούν επειδή καταλαμβάνουν μόνο ένα μικρό ποσοστό της εικόνας. Αυτά τα αντικείμενα μπορούν να οριστούν με δύο βασικούς τρόπους: σχετικά, όταν ένα αντικείμενο θεωρείται μικρό εάν το bounding box του καλύπτει λιγότερο από το 1% της περιοχής της εικόνας, ή απόλυτα, όταν τα μικρά αντικείμενα ορίζονται από συγκεκριμένες διαστάσεις σε pixels, όπως 32x32 pixels στο dataset MS-COCO ή 16x16 pixels στο USC-GRAD-STDb. Υπήρξαν βελτιώσεις στη μέση Μέση Ακρίβεια (mean Average Precision - mAP) των μοντέλων μέσω διαφορετικών αρχιτεκτονικών. Τα περισσότερα μοντέλα ανίχνευσης γίνονται πιο πολύπλοκα και μεγαλύτερα, γεγονός που μπορεί να δημιουργήσει πρόβλημα όταν ένα μοντέλο ανίχνευσης προορίζεται για χρήση σε δορυφόρο ή Unmanned Aerial Vehicle (UAV), καθώς οι υπολογιστικοί πόροι τους είναι περιορισμένοι. Η παρούσα διατριβή προτείνει ένα νέο backbone, το Extended Feature Pyramid Network, για το visual transformer Masked-Attention Mask Transformer ως ο detector. Αυτό το νέο μοντέλο χρησιμοποιεί feature maps, bounding boxes και masks ως πληροφορία για να εντοπίσει και να ταξινομήσει αποτελεσματικά μικρά αντικείμενα. Αυτή η προσέγγιση πέτυχε σημαντική μείωση στην υπολογιστική πολυπλοκότητα, συγκεκριμένα μείωση κατά 56% στις Giga Floating Point Operations Per Second (GFLOPs) σε όλες τις περιπτώσεις. Τα datasets που χρησιμοποιήθηκαν για την αξιολόγηση των μοντέλων με τη προτεινόμενη μέθοδο ήταν τα Microsoft Common Object in COntext (MS COCO), VisDrone και Unmanned Aerial Vehicle Small Object Detection (UAV-SOD). Στο dataset UAV-SOD το μοντέλο παρουσίασε βελτίωση 3.1% στο mAP, ενώ είχε σχεδόν ταυτόσημη απόδοση στο πιο περίπλοκο dataset MS COCO με μείωση 6.5%. Τέλος, στο dataset VisDrone παρατηρήσαμε μεγαλύτερη μείωση στην απόδοση, περίπου 13%, καθώς τα δεδομένα του test set περιλάμβαναν αντικείμενα που το μοντέλο εντόπισε και ταξινόμησε σωστά, αλλά οι σημάνσεις (annotations) δεν τα συμπεριλάμβαναν. Σε αυτή την τελευταία περίπτωση, πιστεύουμε ότι η απόδοση του μοντέλου ήταν καλύτερη από ό,τι μπορεί να υποδεικνύουν τα αποτελέσματα. Συνολικά τα αποτελέσματα καταδεικνύουν την αποτελεσματικότητα της προτεινόμενης μεθόδου, παρέχοντας χρήσιμες πληροφορίες στη multi-task learning και επιτυγχάνοντας μεγαλύτερη ακρίβεια και καλύτερη υπολογιστική αποδοτικότητα σε ένα σύνολο απαιτητικών datasets.