Σχεδιασμός, βελτιστοποίηση και εφαρμογή αλγορίθμων machine learning και deep learning, με δυνατότητα αυτόματης εκτέλεσης διασταυρούμενης επικύρωσης και ανανέωσης βάσει των διατηρούμενων συνόλων πολυδιάστατων και σύνθετων δεδομένων
Design, optimization and implementation of machine learning and deep learning algorithms, with the ability to automatically perform cross-validation and update based on the held sets of multidimensional and complex data
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Μηχανική μάθηση ; Βαθιά μάθηση ; Χρονοσειρές ; Πρόβλεψη χρονοσειρών ; Ανάλυση δεδομένωνΠερίληψη
Η παρούσα διατριβή καλύπτει πρωτοποριακή έρευνα στην τομή των ερευνητικών πεδίων της μηχανικής μάθησης και της πρόβλεψης χρονοσειρών, με εφαρμογή σε πραγματικά δεδομένα βιομηχανικών διαδικασιών. Ο όρος "χρονοσειρά" αναφέρεται σε μια ακολουθία ή ροή δεδομένων που είναι χρονικά εξαρτημένη, με τη χρονική συσχέτιση να είναι θεμελιώδης. Τέτοιου είδους χρονοσειρές είναι πανταχού παρούσες στο περιβάλλον και στην καθημερινότητά μας. Η σημασία αυτών των δεδομένων απορρέει ακριβώς από την χρονική τους συσχέτιση. Ιδιαίτερο ενδιαφέρον υπάρχει στην περίπτωση της συσχέτισης μεταξύ διαφορετικών χρονοσειρών πολλών διαστάσεων. Η μηχανική μάθηση αποτελεί σημαντικό παράγοντα στις πιο πρόσφατες εξελίξεις για την αντιμετώπιση των προκλήσεων που συνεπάγεται η εξαγωγή χρήσιμων πληροφοριών από δεδομένα χρονοσειρών. Ταυτόχρονα, η ερευνητική επίδραση αυξάνεται όταν υπάρχει παράλληλο οικονομικό όφελος για τους βιομηχανικούς φορείς.
Η προσέγγισή μας για την επεξεργασία και ανάλυση δεδομένων περιλαμβάνει την προεπεξεργασία των ακατέργαστων δεδομένων, την εκπαίδευση ενός μοντέλου μηχανικής μάθησης στα προεπεξεργασμένα δεδομένα για την πρόβλεψη ή κατηγοριοποίηση επιθυμητών μεταβλητών, την απεικόνιση των αποτελεσμάτων σε χρονοσειρές για χρονική ανάλυση, και την εφαρμογή της επεξηγήσιμης τεχνητής νοημοσύνης για καλύτερη κατανόηση των μοντέλων και των προβλέψεών τους.
Η διατριβή αφορά την ανάλυση προβλημάτων που εμφανίζονται σε διάφορα στάδια της παραγωγικής διαδικασίας στον βιομηχανικό τομέα και για τα οποία δεν έχουν ακόμη εφαρμοστεί μέθοδοι Μηχανικής Μάθησης. Σε αυτές τις περιτπώσεις υλοποιούμε το προτεινόμενο ολοκληρωμένο πλαίσιο τεχνητής νοημοσύνης το οποίο καλύπτει τόσο προβλήματα κατηγοριοποίησης όσο και παλινδρόμησης. Ένας ειδικός στόχος της εργασίας είναι ο σχεδιασμός και η βελτιστοποίηση μαθηματικών μοντέλων Μηχανικής Μάθησης, με ιδιαίτερη έμφαση σε μοντέλα νευρωνικών δικτύων πολλαπλών επιπέδων που εφαρμόζονται σε πολυδιάστατα και πολύπλοκα πραγματικά δεδομένα σε διάφορους βιομηχανικούς τομείς, όπως την αγροτική, την ναυτιλιακή και τη χρηματοπιστωτική βιομηχανία. Στόχος μας είναι να βελτιώσουμε αυτές τις μεθόδους και να αναπτύξουμε νέες με βάση τις προκλήσεις και τους περιορισμούς που προκύπτουν από τη φύση των δεδομένων. Η διατριβή επικεντρώνεται στην πρόβλεψη μελλοντικών γεγονότων και συμπεριφορών, επιτρέποντας στις επιχειρήσεις να διεξάγουν αναλύσεις για την πρόβλεψη των επιπτώσεων των πιθανών αλλαγών στις επιχειρηματικές στρατηγικές τους.
Συγκεκριμένα η διατριβή στοχεύει στην δημιουργία και εφαρμογή προηγμένων αλγόριθμων ανάλυσης δεδομένων γενικότερα, παρέχοντας τη δυνατότητα οπτικής απεικόνισης αυτών με σκοπό την καλύτερη και βαθύτερη κατανόηση των προβλημάτων, ενώ παράλληλα μοντέλα προβλέψεων βασισμένα σε τεχνολογίες Μηχανικής Μάθησης προτείνονται με σκοπό την βέλτιστη λήψη αποφάσεων. Οι τεχνικές Μηχανικής Μάθησης καθώς και τεχνικές πρότυπης μοντελοποίησης θα είναι σε θέση να διαχειριστούν τον κύκλο ζωής της προετοιμασίας, της εξερεύνησης και της ανάλυσης δεδομένων, για την επίτευξη καλύτερης απόδοσης και παρακολούθησης του επιλυόμενου προβλήματος. Αναλυτικότερα, εστιάζουμε τόσο σε πρακτικές όσο και σε θεωρητικές πτυχές των μεθόδων Μηχανικής Μάθησης για την εξόρυξη και διαχείριση δεδομένων χρονοσειρών. Οι ερευνητικοί μας στόχοι καθοδηγούνται από τρείς προκλήσεις στην εφαρμογή μεθόδων Μηχανικής Μάθησης (και κυρίως των σχετικών με τις χρονοσειρές) σε πραγματικές συνθήκες όπως η συνεχής βελτιστοποίηση των μοντέλων Μηχανικής Μάθησης (ακρίβεια, χρόνος εκτέλεσης κ.α.) την βελτίωση των αποτελεσμάτων του μοντέλου λόγω της χρήσης υποκατάστατων δεδομένων που εμπλουτίζουν το σύνολο δεδομένων και συμβάλλουν στην καλύτερη γενίκευση του προτεινόμενου μοντέλου και τη βέλτιστη επιλογή διαφορετικών μοντέλων.
Τα δεδομένα που χρησιμοποιήθηκαν σε αυτή τη διατριβή προέρχονται από 3 τομείς της πραγματικής οικονομίας τη ναυτιλία, την ασφάλεια τροφίμων και τον τραπεζικό τομέα. Όσον αφορά τον πρώτο τομέα, η έρευνα επικεντρώθηκε στο πρόβλημα της προβλεπτικής συντήρησης των κύριων μηχανών εμπορικών πλοίων. Από τον τομέα της ασφάλειας τροφίμων και ανάλυσης κειμένου επικεντρώθηκε στη πρόβλεψη συμβάντων ανάκληση τροφίμων από δεδομένα ροής μικρών κειμένων καθώς και την εξαγωγή συμπερασμάτων για την συσχέτιση περιβαλλοντικών συνθηκών με την ποιότητα του κρέατος των χοίρων. Τέλος στον χρηματοοικονομικό/τραπεζικό τομέα μελετήσαμε την πρόβλεψή ροών χρήματος σε Μικρομεσαίες Επιχειρήσεις (ΜΜΕ) βασισμένες σε ιστορικά δεδομένα συναλλαγών. Μία από τις πρώτες συνεισφορές μας είναι μια ολοκληρωμένη διερεύνηση των προαναφερθέντων πραγματικών προβλημάτων, όπου εντοπίσαμε ερευνητικές ευκαιρίες.
Τα πλοία, παρόμοια με άλλους τύπους ‘’εξοπλισμού’’ είναι εφοδιασμένα με αισθητήρες ώστε να μπορούν να συλλέγουν πληροφορίες για την συνολική λειτουργία των μηχανικών και ηλεκτρικών μερών τους. Οι αισθητήρες αυτοί παρέχουν ροές δεδομένων που μπορούν να αναλυθούν σε πραγματικό χρόνο μέσω τεχνικών Μηχανικής Μάθησης και να συλλέγουν πληροφορίες για πιθανά σφάλματα στις κύριες μηχανές ή σε άλλα μέρη των πλοίων, αυτό ακριβώς αποτελεί και τον πρώτο πυλώνας των επιστημονικών μας συνεισφορών. Οι πληροφορίες αυτές μπορούν να χρησιμοποιηθούν ώστε να διευκολύνουν ή να βελτιώσουν αποφάσεις, όπως την παραγγελία ανταλλακτικών ή την αλλαγή προορισμού σε λιμάνια για την αντικατάσταση εξαρτημάτων που αναμένεται να χαλάσουν. Όλα τα παραπάνω μπορούμε να τα συνοψίσουμε ως μια συνολική προσέγγιση προβλεπτικής συντήρησης που οδηγείται από τα δεδομένα. Στην εργασία αυτή, παρουσιάζουμε μια προσέγγιση για τον εντοπισμό ανωμαλιών σε δεδομένα χρονοσειρών, εφαρμόζοντας τεχνικές Μηχανικής Μάθησης στα δεδομένα των αισθητήρων του πλοίου, με σκοπό την έγκαιρη εκτίμηση της κατάστασης συγκεκριμένων μερών της κύριας μηχανής του πλοίου έτσι ώστε η προβλεπτική συντήρηση να καταστεί δυνατή. Η προτεινόμενη προσέγγιση ενσωματώνει αρκετά μοντέλα που έχουν αναλυθεί και εφαρμοστεί στο πλαίσιο της προβλεπτικής συντήρησης στον ναυτιλιακό κλάδο, σε μια συλλογή μοντέλων για να συλλεχθούν σαφέστερες πληροφορίες για τα αποτελέσματα και την δυνατότητα εφαρμογής προβλεπτικής συντήρησης.
Η δεύτερη σημαντική συμβολή αυτής της έρευνας αφορά την ανάλυση και πρόβλεψη πληροφοριών σχετικά με πιθανά μη ασφαλή διατροφικά αγαθά και προϊόντα. Αυτές οι πληροφορίες αξιοποιούνται για να οδηγήσουν στη λήψη αποφάσεων αναφορικά με το ποια προϊόντα είναι πιο πιθανό να είναι επιβλαβή στο εγγύς μέλλον και στη συνέχεια να βελτιστοποιήσουν την αλυσίδα εφοδιασμού τροφίμων. Στο πλαίσιο της διατριβής, εισάγουμε μια προσέγγιση Βαθιάς Μάθησης αξιοποιώντας τεχνικές επεξεργασίας φυσικής γλώσσας και πρόβλεψης χρονοσειρών, για την παρακολούθηση και την ανάλυση του κινδύνου που σχετίζεται με κάθε κατηγορία προϊόντων διατροφής και τις αντίστοιχες πιθανές ανακλήσεις. Επιπλέον, προτείνουμε μια τεχνική που εκμεταλλεύεται την μεθοδολογία της Ενισχυτικής Μάθησης αξιοποιώντας ιστορικά δεδομένων ανακοινώσεων ανάκλησης προϊόντων τροφίμων για την πρόβλεψη των μελλοντικών ανακλήσεων τους. Με τον τρόπο αυτο παρέχονται πληροφορίες στις εταιρείες τροφίμων σχετικά με τις επερχόμενες τάσεις στις ανακλήσεις τροφίμων που μπορούν να οδηγήσουν σε αυξημένο ποιοτικό έλεγχο και επιτήρηση για έγκαιρες ανακλήσεις. Αξιολογούμε επίσης και αποδεικνύουμε την αποτελεσματικότητα και την προστιθέμενη αξία των προτεινόμενων προσεγγίσεων μέσω ενός πραγματικού σεναρίου με υποσχόμενα αποτελέσματα. Επιπροσθέτως, εξετάζεται στο υπόψη πραγματικό σενάριο η χρήση ανάλογων/υποκατάστατων δεδομένων ως μέθοδος επαύξησης του συνόλου δεδομένων για πιο ακριβή αποτελέσματα με θετικά αποτελέσματα.
Παράλληλα σχετικά με την ασφάλεια τροφίμων, ένα δεύτερο πραγματικό σενάριο το οποίο εξετάστηκε στο πλαίσιο της διατριβής και δείχνει την προστιθέμενη αξία της χρήσης των διαφόρων δεδομένων που συλλέγονται είναι αυτό της ανεπιθύμητης γεύσης και οσμής που μπορεί να υπάρχει στο κρέας των κάπρων, όταν μαγειρεύεται το χοιρινό, προκαλώντας το δυσάρεστο άρωμα, τεχνικά γνωστό ως κηλίδωση κάπρου. Αξίζει να σημειωθεί ότι φυσικές δυσάρεστες οσμές δεν δημιουργούν πρόβλημα ασφάλειας των τροφίμων, αλλά αποτελούν απειλή για την εμπειρία φαγητού/μαγειρικής και απαγορεύεται από τους κανονισμούς για την ποιότητα των τροφίμων στις περισσότερες χώρες. Χρησιμοποιώντας τα συμπεράσματα της εν λόγω μελέτης, που συγκαταλέγονται στα αποτελέσματα της διατριβής, οι χοιροτρόφοι μπορούν να αποκτήσουν γνώσεις σχετικά με τον τρόπο με τον οποίο πρέπει να προσαρμόσουν τη διαχείρισή των κάπρων για να μειώσουν τη κηλίδωση τους. Συγκεκριμένα, αυτή η μελέτη εξετάζει πολλαπλές προγνωστικές προσεγγίσεις που βασίζονται σε δεδομένα σε συνδυασμό με μεθόδους εξηγήσιμης τεχνητής νοημοσύνης, αξιολογώντας τις σε σχέση με διάφορες εξηγήσιμες μετρήσεις, καταλήγοντας σε χρήσιμα συμπεράσματα, πληροφορίες και συγκεκριμένες προτάσεις. Αναλυτικότερα, σε αυτήν την προσέγγιση, η εξεταζόμενη περίπτωση χρήσης μοντελοποιήθηκε ως δυαδική εργασία ταξινόμησης με αποτέλεσμα ένα εξαιρετικά ανισόρροπο σύνολο δεδομένων. Με αυτήν την προσέγγιση, έχουν προκύψει ορισμένα λειτουργικά χαρακτηριστικά τα οποία φαίνεται να συσχετίζονται με την κηλίδωση των κάπρων και αφορούν τις συνθήκες του αγροκτήματος/στάβλου και του σφαγείου, όπως ο τύπος της τροφής, ο τύπος του συστήματος εξαερισμού, η φαρμακευτική αγωγή, ο τύπος δαπέδου και η διάρκεια της αναμονής στο χώρο αποθήκευσης.
Η τρίτη επιστημονική μας προσθήκη αφορά τον τραπεζικό κλάδο και πιο συγκεκριμένα τις Μικρομεσαίες Επιχειρήσεις (ΜΜΕ) οι οποίες αντιμετωπίζουν ένα περίπλοκο και προκλητικό περιβάλλον, καθώς στους περισσότερους τομείς υστερούν στον ψηφιακό μετασχηματισμό τους. Οι τράπεζες, διατηρώντας μια ποικιλία δεδομένων των ΜΜΕ-πελατών τους για την εκτέλεση των βασικών τους δραστηριοτήτων, θα μπορούσαν να προσφέρουν επιπλέον μια λύση χρησιμοποιώντας όλα τα διαθέσιμα δεδομένα για να παρέχουν στους πελάτες τους μια εργαλειοθήκη Οικονομικής Διοίκησης Επιχειρήσεων (ΟΔΕ), παρέχοντας ψηφιακές υπηρεσίες προστιθέμενης αξίας βασισμένες στην μηχανική μάθηση. Παρά την επιτυχία της Βαθιάς Μάθησης σε πολλούς τομείς, ο σχεδιασμός τέτοιων μοντέλων βασίζεται στη διαδικασία της δοκιμής και του λάθους. Μια αυστηρή μαθηματική θεωρία υπερπαραμετροποιημένων μοντέλων η οποία να καλύπτει όλα τις περιπτώσεις εφαρμογής εξακολουθεί να λείπει. Προς αυτή την κατεύθυνση, η παρούσα εργασία περιστρέφεται γύρω από την ανάπτυξη ενός έξυπνου, εξατομικευμένου υβριδικού μοντέλου κατηγοριοποίησης συναλλαγών, διασυνδεδεμένου με ένα μοντέλο πρόβλεψης ταμειακών ροών που βασίζεται σε επαναλαμβανόμενα νευρωνικά δίκτυα Βαθιάς Μάθησης. Καθώς η ταξινόμηση των συναλλαγών είναι μεγάλης σημασίας, αυτή η έρευνα επεκτείνεται προς επεξηγήσιμη τεχνητή νοημοσύνη, όπου τα εργαλεία /μέθοδοι LIME και SHAP χρησιμοποιούνται για την ερμηνεία και την απεικόνιση των αποτελεσμάτων ταξινόμησης Μηχανικής Μάθησης. Η προσέγγισή μας δείχνει πολλά υποσχόμενα αποτελέσματα σε μια περίπτωση τραπεζικής χρήσης σε πραγματικό κόσμο και λειτουργεί ως το θεμέλιο για την ανάπτυξη περαιτέρω τραπεζικών μικροϋπηρεσιών ΟΔΕ, όπως η πρόβλεψη ταμιακών ροών, ο εντοπισμός απάτης και η παρακολούθηση του προϋπολογισμού.
Αυτή η Διατριβή είναι ένα βήμα προς πιο αξιόπιστες και αποτελεσματικές μεθόδους Μηχανικής Μάθησης για πραγματικά προβλήματα βιομηχανίας κυρίως χρησιμοποιώντας δεδομένα χρονοσειρών. Ως εκ τούτου στο προτεινόμενο πλαίσιο της διατριβής έχει ενσωματωθεί ένα καινοτόμο μοντέλο ΧΑΙ για χρονοσειρές.
Ελπίζουμε ότι τα ευρήματά μας θα αποτελέσουν κίνητρο για τους μελλοντικούς ερευνητές και θα χρησιμεύσουν ως εργαλεία για μηχανικούς σε βιομηχανικές εφαρμογές υψηλού αντίκτυπου