Small-object detection in remote sensing images and video

Orfanos, Stamatios; Ορφανός, Σταμάτιος

dc.contributor.advisor	Maglogiannis, Ilias
dc.contributor.advisor	Μαγκλογιάννης, Ηλίας
dc.contributor.author	Orfanos, Stamatios
dc.contributor.author	Ορφανός, Σταμάτιος
dc.date.accessioned	2024-11-14T07:07:57Z
dc.date.available	2024-11-14T07:07:57Z
dc.date.issued	2024-10
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/17067
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/4490
dc.description.abstract	Η ανίχνευση αντικειμένων σε εικόνες τηλεπισκόπησης αποτελεί μια δύσκολη πρόκληση για την ερευνητική κοινότητα της computer vision λόγω της παρουσίας μικρών ή πολύ μικρών αντικειμένων, τα οποία συχνά είναι δύσκολο να ανιχνευτούν επειδή καταλαμβάνουν μόνο ένα μικρό ποσοστό της εικόνας. Αυτά τα αντικείμενα μπορούν να οριστούν με δύο βασικούς τρόπους: σχετικά, όταν ένα αντικείμενο θεωρείται μικρό εάν το bounding box του καλύπτει λιγότερο από το 1% της περιοχής της εικόνας, ή απόλυτα, όταν τα μικρά αντικείμενα ορίζονται από συγκεκριμένες διαστάσεις σε pixels, όπως 32x32 pixels στο dataset MS-COCO ή 16x16 pixels στο USC-GRAD-STDb. Υπήρξαν βελτιώσεις στη μέση Μέση Ακρίβεια (mean Average Precision - mAP) των μοντέλων μέσω διαφορετικών αρχιτεκτονικών. Τα περισσότερα μοντέλα ανίχνευσης γίνονται πιο πολύπλοκα και μεγαλύτερα, γεγονός που μπορεί να δημιουργήσει πρόβλημα όταν ένα μοντέλο ανίχνευσης προορίζεται για χρήση σε δορυφόρο ή Unmanned Aerial Vehicle (UAV), καθώς οι υπολογιστικοί πόροι τους είναι περιορισμένοι. Η παρούσα διατριβή προτείνει ένα νέο backbone, το Extended Feature Pyramid Network, για το visual transformer Masked-Attention Mask Transformer ως ο detector. Αυτό το νέο μοντέλο χρησιμοποιεί feature maps, bounding boxes και masks ως πληροφορία για να εντοπίσει και να ταξινομήσει αποτελεσματικά μικρά αντικείμενα. Αυτή η προσέγγιση πέτυχε σημαντική μείωση στην υπολογιστική πολυπλοκότητα, συγκεκριμένα μείωση κατά 56% στις Giga Floating Point Operations Per Second (GFLOPs) σε όλες τις περιπτώσεις. Τα datasets που χρησιμοποιήθηκαν για την αξιολόγηση των μοντέλων με τη προτεινόμενη μέθοδο ήταν τα Microsoft Common Object in COntext (MS COCO), VisDrone και Unmanned Aerial Vehicle Small Object Detection (UAV-SOD). Στο dataset UAV-SOD το μοντέλο παρουσίασε βελτίωση 3.1% στο mAP, ενώ είχε σχεδόν ταυτόσημη απόδοση στο πιο περίπλοκο dataset MS COCO με μείωση 6.5%. Τέλος, στο dataset VisDrone παρατηρήσαμε μεγαλύτερη μείωση στην απόδοση, περίπου 13%, καθώς τα δεδομένα του test set περιλάμβαναν αντικείμενα που το μοντέλο εντόπισε και ταξινόμησε σωστά, αλλά οι σημάνσεις (annotations) δεν τα συμπεριλάμβαναν. Σε αυτή την τελευταία περίπτωση, πιστεύουμε ότι η απόδοση του μοντέλου ήταν καλύτερη από ό,τι μπορεί να υποδεικνύουν τα αποτελέσματα. Συνολικά τα αποτελέσματα καταδεικνύουν την αποτελεσματικότητα της προτεινόμενης μεθόδου, παρέχοντας χρήσιμες πληροφορίες στη multi-task learning και επιτυγχάνοντας μεγαλύτερη ακρίβεια και καλύτερη υπολογιστική αποδοτικότητα σε ένα σύνολο απαιτητικών datasets.	el
dc.format.extent	60	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.title	Small-object detection in remote sensing images and video	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	Object detection in remote sensing images has been a challenging problem for the computer vision research community due to the presence of small or tiny objects, which are often difficult to detect because they occupy only a small proportion of the image. These objects can be defined in two main ways: relatively, where an object is considered small if its bounding box covers less than 1% of the image area or absolutely, where small objects are defined by specific pixel dimensions, such as 32x32 pixels in the MS-COCO dataset or 16x16 pixels in the USC-GRAD-STDb. There have been improvements in the mean Average Precision (mAP) of the models using different architectures. Most of the detection models are becoming more complex and bigger, which can cause a problem usually when a detection model is intended for use in a satellite or an Unmanned Aerial Vehicle, since their computation resources are limited. This thesis proposes a new backbone being the Extended Feature Pyramid Network for the visual transformer Masked-Attention Mask Transformer as the detector. This new model utilises feature maps, bounding boxes and masks as information to effectively localise and classify small objects. This approach has achieved a significant reduction in computational complexity, specifically a 56% decrease in Giga Floating Point Operations Per Second (GFLOPs) in all cases. The datasets that were used for the evaluation of the models with the proposed method, were the Microsoft Common Object in COntext (MS COCO), VisDrone and Unmanned Aerial Vehicle Small Object Detection (UAV-SOD). On the UAV-SOD dataset the model had a 3.1% mAP improvement, while having an almost identical performance on the most complex dataset the MS COCO with a 6.5% decrease. Lastly on the VisDrone dataset we got a bigger performance decrease of around 13%, since the test data had objects that the model correctly localised and classified but the annotations were incorrectly not included. In this last case we think the performance of the model was better than the result may suggest. The results demonstrate the effectiveness of the proposed method, providing useful intel in multi-task learning and achieving greater accuracy performance and better computational efficiency on a set of challenging datasets.	el
dc.corporate.name	National Centre for Scientific Research "Demokritos"	el
dc.contributor.master	Τεχνητή Νοημοσύνη - Artificial Intelligence	el
dc.subject.keyword	Object detection	el
dc.subject.keyword	Small object detection	el
dc.subject.keyword	Visual transformer	el
dc.subject.keyword	Remote sensing images	el
dc.subject.keyword	Deep learning	el
dc.subject.keyword	Machine learning	el
dc.date.defense	2024-10-29

Αρχεία σε αυτό το τεκμήριο

Name:: Orfanos_mtn2211.pdf
Μέγεθος:: 7.063Mb
Τύπος:: PDF
Description:: Master thesis

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού 3.0 Ελλάδα