Στατιστικές τεχνικές παλινδρόμησης για την ανάλυση μεγάλων δεδομένων
Regression techniques for the analysis of big data
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ανάλυση παλινδρόμησης ; Γραμμική παλινδρόμηση ; Μεγάλα δεδομένα ; Στατιστική ανάλυση ; Linear regression ; Big dataΠερίληψη
Στη σύγχρονη εποχή, η δυνατότητα συλλογής μεγάλων όγκων δεδομένων τα οποία
συνήθως αφορούν πολλά χαρακτηριστικά έχει οδηγήσει στην ανάγκη εφαρμογής και
ανάπτυξης ειδικών στατιστικών τεχνικών που θα βοηθήσουν στη μελέτη της δομής
τους και την εξαγωγή χρήσιμων συμπερασμάτων. Έχει διαπιστωθεί ότι, για την
ανάλυση τέτοιων δεδομένων, απαιτείται είτε κάποια ειδική προσαρμογή των
διαθέσιμων κλασσικών στατιστικών τεχνικών είτε η ανάπτυξη εναλλακτικών
τεχνικών.
Στα πλαίσια της παρούσας εργασίας θα γίνε ι σύντομη παρουσίαση τεχνικών που
χρησιμοποιούνται για την ανάλυση μεγάλων δεδομένων, προγραμματισμός των
αντίστοιχων αλγορίθμων σε περιβάλλον R και σύγκριση των διάφορων τεχνικών με τη
χρήση πραγματικών δεδομένων.
Πιο συγκεκριμένα θα χρησιμοποιηθούν τεχνικές που βασίζονται στα δέντρα
παλινδρόμησης και μέσω αλγορίθμων μηχανικής μάθησης βελτιώνεται η ακρίβεια των
τους. Ακόμη θα χρησιμοποιηθούν τεχνικές που βασίζονται στο κλασσικό μοντέλο
γραμμικής παλινδρόμησης, στο οποίο όμως εφαρμόζετα ι ένας περιορισμός (ποινή)
στους συντελεστές του μοντέλου, ώστε αντιμετωπιστεί το φαινόμενο της
πολυσυγγραμμικότητας, να μειωθεί η διασπορά των συντελεστών και να επιτευχθεί
μεγαλύτερη ακρίβεια πρόβλεψης.