Δειγματοληψία χρονοσημασμένων, ακολουθιακών, σύνθετων τύπων δεδομένων
Θεματική επικεφαλίδα
Οικονομετρικά υποδείγματα ; Time-series analysis ; Γεωγραφικά Συστήματα Πληροφοριών -- Στατιστικές μέθοδοιΠερίληψη
Στόχος της παρούσας διπλωματικής εργασίας είναι η μελέτη και η προσαρμογή των διαφόρων τεχνικών δειγματοληψίας σε σύνθετους τύπους δεδομένων, των οποίων το κοινό χαρακτηριστικό είναι ότι πρόκειται για χρονοσημασμένα, ακολουθιακά δεδομένα. Αρχικά θα να γίνει ορθή συλλογή και καταγραφή χρονοσημασμένων δεδομένων χρησιμοποιώντας τις διάφορες μεθόδους δειγματοληψίας. Στη συνέχεια, τα δεδομένα θα τύχουν επεξεργασίας και θα παραχθούν τα σωστά αποτελέσματα και συμπεράσματα. Η συλλογή του τεράστιου όγκου δεδομένων μπορεί να γίνει με διάφορες μεθόδους δειγματοληψίας. Πιο συγκεκριμένα, η μέθοδος της δειγματοληψίας αφορά τη λήψη ενός τμήματος στοιχείων από κάποιο ευρύτερο σύνολο στοιχείων και κατηγοριοποιείται σε δύο υπό-ομάδες, τη δειγματοληψία βάση πιθανοτήτων και τη δειγματοληψία χωρίς πιθανότητα.
Στην δεύτερη μας ενότητα θα παρουσιάσουμε τις διάφορες μεθόδους της δειγματοληψίας πιθανοτήτων που είναι η Απλή τυχαία δειγματοληψία, η Συστηματική Δειγματοληψία, η Δειγματοληψία με διαστρωμάτωση, η Δειγματοληψία κατά συστάδες και η Πολυσταδιακή Δειγματοληψία όπως επίσης και τις διάφορες μεθόδους της δειγματοληψίας χωρίς πιθανότητα που είναι η Δειγματοληψία ευκολίας ή συμπτωματική δειγματοληψία και η Δειγματοληψία αναλογίας ή ποσοστιαία δειγματοληψία. Στην Δειγματοληψία βάση πιθανοτήτων οι παρατηρήσεις του δείγματος επιλέγονται ανεξάρτητα και με ίσες πιθανότητες ενώ στην Δειγματοληψία χωρίς πιθανότητα η επιλογή των επιμέρους παρατηρήσεων που αποτελούν το δείγμα γίνεται με ένα σταθερό και προκαθορισμένο (συστηματικό) τρόπο.
Στη συνέχεια θα αναλύσουμε τις έννοιες χρονοσειρά, τροχιά και webclicks, έννοιες που αποτελούν χαρακτηριστικά παραδείγματα ακολουθιακών δεδομένων. Επίσης, θα αναφερθούμε σε μεθόδους data mining που στη συνέχεια θα χρησιμοποιηθούν για την αξιολόγηση των αποτελεσμάτων μας.
Θα γίνει μία αναφορά στις χρονοσειρές (Timeseries) και παρουσίαση κάποιων αντιπροσωπευτικών παραδειγμάτων, έτσι ώστε να γίνει πιο κατανοητή η έννοια των ακολουθιακών δεδομένων. Συγκεκριμένα, μία χρονοσειρά (Timeseries) είναι μια ακολουθία από σημεία δεδομένων, η οποία μετράται συνήθως σε διαδοχικές χρονικές στιγμές που απέχουν κατά ομοιόμορφα διαστήματα χρόνου μεταξύ τους. Οι παρατηρήσεις που αποτελούν μία χρονοσειρά παίρνονται σε ορισμένες χρονικές στιγμές ή περιόδους που ισαπέχουν μεταξύ τους και συλλέγονται μέσω κάποιας μεθόδου δειγματοληψίας.
Έπειτα, θα γίνει μία αναφορά στις τροχιές (Trajectories) και η παρουσίαση κάποιων αντιπροσωπευτικών παραδειγμάτων, έτσι ώστε να γίνει πιο κατανοητή η έννοια των καταγεγραμμένων διαδρομών ενός κινούμενου αντικειμένου (π.χ. οι καθημερινές διαδρομές που ακολουθούν τα εμπορικά φορτηγά στο κέντρο της Αθήνας).
Η δεύτερη ενότητα κλείνει με την ανάλυση των Webclicks που αποτελούν την καταγραφή του πλήθους των κλικ που γίνονται σε κάποια συγκεκριμένη ιστοσελίδα από τους διάφορους χρήστες. Είναι μία μέθοδος δειγματοληψίας με απώτερο σκοπό την διεξαγωγή μελέτης και την εξαγωγή συμπερασμάτων έτσι ώστε να ωφεληθούν οι ιδιοκτήτες των διαφόρων ιστοσελίδων.
Στην τρίτη ενότητα θα παρουσιάσουμε σχετικές μελέτες που έγιναν βασισμένες στις έννοιες της δειγματοληψίας τροχιών και χρονοσειρών. Επίσης, θα γίνει εφαρμογή των μεθόδων δειγματοληψίας σε ήδη συλλεγμένα δεδομένα έτσι ώστε να εξαχθούν κάποια συμπεράσματα και να αξιολογηθούν οι μέθοδοι που χρησιμοποιήθηκαν.
Τα άρθρα που έχουν επιλεγεί και θα συμπεριληφθούν στην εργασία μας υπό μορφή περίληψης είναι τα: «Segmentation and Sampling of Moving Object Trajectories Based on Representativeness», «Trajectory Sampling for Direct Traffic Observation» και «Unsupervised Trajectory Sampling». Τα τρία αυτά άρθρα αποτελούν σχετικές μελέτες βασισμένες στις έννοιες της τροχιάς και της δειγματοληψίας.
Τα δεδομένα που έχουμε προαναφέρει αφορούν τροχιές πλοίων, που καταγράφηκαν κατά τη διάρκεια τριών ημερών, και χρονοσειρές τιμών κλεισίματος μετοχών κατά τη διάρκεια τεσσάρων χρόνων. Αυτά τα δύο ήδη δεδομένων θα αναλυθούν και στη συνέχεια θα εφαρμοστούν μέθοδοι δειγματοληψίας σε αυτά Τα δεδομένα έχουν βρεθεί διαδικτυακά και έχουν τύχει επεξεργασίας ούτως ώστε να μπορούν να χρησιμοποιηθούν. Τέλος, στην τελευταία μας ενότητα θα καταγραφούν τα γενικά αποτελέσματα και συμπεράσματα που έχουν εξαχθεί από τη μελέτη των δυο προηγούμενων κεφαλαίων.