Small-object detection in remote sensing images and video

Kotrotsios, Orestis; Κοτρώτσιος, Ορέστης

Ανίχνευση μικρών αντικειμένων σε εικόνες και βίντεο τηλεπισκόπησης

Master Thesis

Συγγραφέας

Kotrotsios, Orestis

Κοτρώτσιος, Ορέστης

Ημερομηνία

2024-05

Περίληψη

Η ανίχνευση αντικειμένων σε εικόνες τηλεπισκόπησης αποτελεί ένα δύσκολο πρόβλημα για την ερευνητική κοινότητα της υπολογιστικής όρασης, επειδή τα αντικείμενα σε τέτοιες εικόνες έχουν πολύ λίγα εικονοστοιχεία (10-20 εικονοστοιχεία). Έχουν υπάρξει πολλές βελτιώσεις στο mean Average Precision (mAP) των μοντέλων με τη χρήση διαφόρων τεχνικών, αλλά όλες αυτές οι βελτιώσεις έχουν κάποιο κόστος. Τα μοντέλα ανίχνευσης γίνονται όλο και μεγαλύτερα, κάτι που μπορεί να προκαλέσει πρόβλημα ειδικά όταν κάποιος θέλει να εφαρμόσει ένα μοντέλο ανίχνευσης σε ένα δορυφόρο ή ένα μη επανδρωμένο εναέριο όχημα, καθώς οι υπολογιστικές τους δυνατότητες είναι περιορισμένες. Η παρούσα διατριβή προτείνει έναν ευέλικτο gradient-path design σε επίπεδο δικτύου που μπορεί να εφαρμοστεί τόσο σε μοντέλα ενός σταδίου όσο και σε μοντέλα πολλαπλών σταδίων με αρχιτεκτονική παρόμοια με το “PaNet”. Η μέθοδος αυτή μειώνει τις υπολογιστικές απαιτήσεις του μοντέλου χρησιμοποιώντας μόνο το μισό του feature map από το “backbone” στο στάδιο του “neck”, ενώ το άλλο μισό παρακάμπτει εντελώς το στάδιο του “neck”. Με αυτόν τον τρόπο δημιουργούμε ένα gradient path που συνδέει απευθείας τα prediction heads με τα layers του “backbone”, ελαχιστοποιώντας έτσι την απώλεια πληροφοριών λόγω των μακρών gradient paths. Η προτεινόμενη μεθοδολογία δοκιμάστηκε στο μοντέλο δύο σταδίων "PaNet" και στο μοντέλο ενός σταδίου "TPH-YOLOv5". Τα σύνολα δεδομένων που χρησιμοποιήθηκαν για την αξιολόγηση των μοντέλων με την προτεινόμενη μέθοδο, ήταν τα Microsoft Common Object in COntext (MS COCO), VisDrone και Aerial Image Tiny Object detection (AI-TOD). Η προτεινόμενη μέθοδος πέτυχε μείωση των GFLOPs (Giga Floating Point Operations Per Second) στο “PaNet” κατά 9,51%, ενώ στο “TPH-YOLOv5” η μείωση ήταν 32,67%. Ταυτόχρονα, η μέση μέση ακρίβεια του “PaNet” με την προτεινόμενη μέθοδο μειώθηκε επίσης κατά 5,7% όταν το κατώτερο όριο του Intersection over Union (IoU) ήταν 50% και κατά 3,2% στο μέσο mAP για IoU με κατώτερο όριο από 50% έως 95%, στο σύνολο δεδομένων MS COCO. Επιπλέον, το mAP του “PaNet” με την προτεινόμενη μέθοδο μειώθηκε κατά 7,8% και η μέση mAP κατά 3,6% στο σύνολο δεδομένων AI-TOD, σε σχέση με τις επιδώσεις του “PaNet” χωρίς την προτεινόμενη μέθοδο. Ωστόσο, το “TPH-YOLOv5” με την προτεινόμενη μέθοδο μείωση μόνο 1,6% τόσο στο mAP όσο και στο μέσο mAP στο σύνολο δεδομένων του VisDrone. Επιπλέον, στο σύνολο δεδομένων AI-TOD η προτεινόμενη μέθοδος είχε καλύτερη απόδοση από την πρωτότυπη κατά 6,4% mAP και κατά 2,4% στο μέσο mAP.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Τεχνητή Νοημοσύνη - Artificial Intelligence

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων

Συνεργαζόμενο Ίδρυμα

National Center of Scientific Research "Demokritos"

Αριθμός σελίδων

Γλώσσα

Αγγλικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/16705
http://dx.doi.org/10.26267/unipi_dione/4127

Συλλογή

Τμήμα Ψηφιακών Συστημάτων

Εμφάνιση πλήρους εγγραφής