Forecasting S&P 500 using technical analysis, macro indicators and machine learning. a hybrid approach
Προβλέψεις για τον S&P 500, χρησιμοποιώντας τεχνική ανάλυση, μακροοικονομικούς δείκτες και μηχανική μάθηση. Μία υβριδική προσέγγιση

Master Thesis
Συγγραφέας
Papavasileiou, Nikolaos
Παπαβασιλείου, Νικόλαος
Ημερομηνία
2025-06Επιβλέπων
Filippakis, MichaelΦιλιππάκης, Μιχαήλ
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
SPY prediction ; Machine learning ; Technical analysis ; Macroeconomic indicators ; Principal component analysis ; k-nearest neighbors ; Stock forecasting ; Sharpe ratio ; Hybrid models ; Financial time seriesΠερίληψη
Η παρούσα διπλωματική εργασία διερευνά την εφαρμογή τεχνικών μηχανικής μάθησης για την πρόβλεψη κατευθυντικών κινήσεων στο SPY ETF, ένα διαπραγματεύσιμο αμοιβαίο κεφάλαιο που παρακολουθεί τον δείκτη S&P 500. Ο κύριος στόχος είναι να αξιολογηθεί κατά πόσο ο συνδυασμός μακροοικονομικών δεικτών με τεχνική ανάλυση μπορεί να βελτιώσει την προγνωστική απόδοση και τη χρηματοοικονομική αποδοτικότητα μοντέλων συναλλαγών βασισμένων στην ταξινόμηση. Τα παραδοσιακά μοντέλα βασίζονται συχνά είτε σε τεχνικούς είτε σε θεμελιώδεις δείκτες απομονωμένα, όμως πρόσφατες έρευνες υποδηλώνουν ότι οι υβριδικές προσεγγίσεις ενδέχεται να προσφέρουν μεγαλύτερη ανθεκτικότητα και γενίκευση σε ευμετάβλητα χρηματοοικονομικά περιβάλλοντα.
Συγκεντρώθηκε ένα εκτενές σύνολο δεδομένων για την περίοδο από τον Φεβρουάριο του 2003 έως τον Ιούνιο του 2025, το οποίο περιλαμβάνει πάνω από 230 χαρακτηριστικά, όπως μακροοικονομικά μεγέθη (π.χ. επιτόκια, ποσοστά ανεργίας, δεδομένα πληθωρισμού και νομισματικά μεγέθη), καθώς και τεχνικούς δείκτες όπως Bollinger Bands, MACD, RSI και TSI. Χρησιμοποιήθηκε Ανάλυση Κύριων Συνιστωσών (PCA) για τη μείωση της διαστασιμότητας, ενώ δοκιμάστηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης — συμπεριλαμβανομένων των K-Nearest Neighbors (KNN), Τυχαίων Δασών (Random Forests), Ενισχυτικής Μάθησης (Gradient Boosting) και Λογιστικής Παλινδρόμησης — για την αξιολόγηση της ακρίβειας ταξινόμησης.
Οι ετικέτες δημιουργήθηκαν βάσει των μελλοντικών αποδόσεων του SPY σε διάφορους χρονικούς ορίζοντες (π.χ. 3, 7, 30 και 90 ημερών) και κατηγοριοποιήθηκαν σε τρία σήματα συναλλαγών: ΑΓΟΡΑ, ΟΥΔΕΤΕΡΟ και ΠΩΛΗΣΗ. Εκτός από την αξιολόγηση της ακρίβειας ταξινόμησης, η εργασία δίνει ιδιαίτερη έμφαση στη δοκιμή των στρατηγικών μέσω αναδρομικών προσομοιώσεων (backtesting) χρησιμοποιώντας βασικούς δείκτες όπως η σωρευτική απόδοση και ο δείκτης Sharpe. Τα ευρήματα δείχνουν ότι τα μοντέλα που χρησιμοποιούν μόνο μακροοικονομικούς ή μόνο τεχνικούς δείκτες έχουν χαμηλότερη απόδοση, ενώ τα υβριδικά μοντέλα βελτιώνουν σημαντικά τόσο την ποιότητα πρόβλεψης όσο και τα αποτελέσματα των συναλλαγών.
Η καλύτερη απόδοση επιτεύχθηκε με τον ταξινομητή KNN, χρησιμοποιώντας 20 επιλεγμένες κύριες συνιστώσες (PCA) και ορίζοντα πρόβλεψης 90 ημερών, αποδίδοντας ακρίβεια ταξινόμησης περίπου 85% και δείκτη Sharpe άνω του 1,2. Τα αποτελέσματα αυτά υποστηρίζουν την υπόθεση ότι τα ενοποιημένα σύνολα χαρακτηριστικών, σε συνδυασμό με κατάλληλη επιλογή μοντέλου και ρύθμιση κατωφλίων, μπορούν να ενισχύσουν την οικονομική πρόβλεψη σε σύνθετες συνθήκες αγοράς.