dc.description.abstract | Στόχος της παρούσας διπλωματικής εργασίας είναι η μελέτη και η προσαρμογή των διαφόρων τεχνικών δειγματοληψίας σε σύνθετους τύπους δεδομένων, των οποίων το κοινό χαρακτηριστικό είναι ότι πρόκειται για χρονοσημασμένα, ακολουθιακά δεδομένα. Αρχικά θα να γίνει ορθή συλλογή και καταγραφή χρονοσημασμένων δεδομένων χρησιμοποιώντας τις διάφορες μεθόδους δειγματοληψίας. Στη συνέχεια, τα δεδομένα θα τύχουν επεξεργασίας και θα παραχθούν τα σωστά αποτελέσματα και συμπεράσματα. Η συλλογή του τεράστιου όγκου δεδομένων μπορεί να γίνει με διάφορες μεθόδους δειγματοληψίας. Πιο συγκεκριμένα, η μέθοδος της δειγματοληψίας αφορά τη λήψη ενός τμήματος στοιχείων από κάποιο ευρύτερο σύνολο στοιχείων και κατηγοριοποιείται σε δύο υπό-ομάδες, τη δειγματοληψία βάση πιθανοτήτων και τη δειγματοληψία χωρίς πιθανότητα.
Στην δεύτερη μας ενότητα θα παρουσιάσουμε τις διάφορες μεθόδους της δειγματοληψίας πιθανοτήτων που είναι η Απλή τυχαία δειγματοληψία, η Συστηματική Δειγματοληψία, η Δειγματοληψία με διαστρωμάτωση, η Δειγματοληψία κατά συστάδες και η Πολυσταδιακή Δειγματοληψία όπως επίσης και τις διάφορες μεθόδους της δειγματοληψίας χωρίς πιθανότητα που είναι η Δειγματοληψία ευκολίας ή συμπτωματική δειγματοληψία και η Δειγματοληψία αναλογίας ή ποσοστιαία δειγματοληψία. Στην Δειγματοληψία βάση πιθανοτήτων οι παρατηρήσεις του δείγματος επιλέγονται ανεξάρτητα και με ίσες πιθανότητες ενώ στην Δειγματοληψία χωρίς πιθανότητα η επιλογή των επιμέρους παρατηρήσεων που αποτελούν το δείγμα γίνεται με ένα σταθερό και προκαθορισμένο (συστηματικό) τρόπο.
Στη συνέχεια θα αναλύσουμε τις έννοιες χρονοσειρά, τροχιά και webclicks, έννοιες που αποτελούν χαρακτηριστικά παραδείγματα ακολουθιακών δεδομένων. Επίσης, θα αναφερθούμε σε μεθόδους data mining που στη συνέχεια θα χρησιμοποιηθούν για την αξιολόγηση των αποτελεσμάτων μας.
Θα γίνει μία αναφορά στις χρονοσειρές (Timeseries) και παρουσίαση κάποιων αντιπροσωπευτικών παραδειγμάτων, έτσι ώστε να γίνει πιο κατανοητή η έννοια των ακολουθιακών δεδομένων. Συγκεκριμένα, μία χρονοσειρά (Timeseries) είναι μια ακολουθία από σημεία δεδομένων, η οποία μετράται συνήθως σε διαδοχικές χρονικές στιγμές που απέχουν κατά ομοιόμορφα διαστήματα χρόνου μεταξύ τους. Οι παρατηρήσεις που αποτελούν μία χρονοσειρά παίρνονται σε ορισμένες χρονικές στιγμές ή περιόδους που ισαπέχουν μεταξύ τους και συλλέγονται μέσω κάποιας μεθόδου δειγματοληψίας.
Έπειτα, θα γίνει μία αναφορά στις τροχιές (Trajectories) και η παρουσίαση κάποιων αντιπροσωπευτικών παραδειγμάτων, έτσι ώστε να γίνει πιο κατανοητή η έννοια των καταγεγραμμένων διαδρομών ενός κινούμενου αντικειμένου (π.χ. οι καθημερινές διαδρομές που ακολουθούν τα εμπορικά φορτηγά στο κέντρο της Αθήνας).
Η δεύτερη ενότητα κλείνει με την ανάλυση των Webclicks που αποτελούν την καταγραφή του πλήθους των κλικ που γίνονται σε κάποια συγκεκριμένη ιστοσελίδα από τους διάφορους χρήστες. Είναι μία μέθοδος δειγματοληψίας με απώτερο σκοπό την διεξαγωγή μελέτης και την εξαγωγή συμπερασμάτων έτσι ώστε να ωφεληθούν οι ιδιοκτήτες των διαφόρων ιστοσελίδων.
Στην τρίτη ενότητα θα παρουσιάσουμε σχετικές μελέτες που έγιναν βασισμένες στις έννοιες της δειγματοληψίας τροχιών και χρονοσειρών. Επίσης, θα γίνει εφαρμογή των μεθόδων δειγματοληψίας σε ήδη συλλεγμένα δεδομένα έτσι ώστε να εξαχθούν κάποια συμπεράσματα και να αξιολογηθούν οι μέθοδοι που χρησιμοποιήθηκαν.
Τα άρθρα που έχουν επιλεγεί και θα συμπεριληφθούν στην εργασία μας υπό μορφή περίληψης είναι τα: «Segmentation and Sampling of Moving Object Trajectories Based on Representativeness», «Trajectory Sampling for Direct Traffic Observation» και «Unsupervised Trajectory Sampling». Τα τρία αυτά άρθρα αποτελούν σχετικές μελέτες βασισμένες στις έννοιες της τροχιάς και της δειγματοληψίας.
Τα δεδομένα που έχουμε προαναφέρει αφορούν τροχιές πλοίων, που καταγράφηκαν κατά τη διάρκεια τριών ημερών, και χρονοσειρές τιμών κλεισίματος μετοχών κατά τη διάρκεια τεσσάρων χρόνων. Αυτά τα δύο ήδη δεδομένων θα αναλυθούν και στη συνέχεια θα εφαρμοστούν μέθοδοι δειγματοληψίας σε αυτά Τα δεδομένα έχουν βρεθεί διαδικτυακά και έχουν τύχει επεξεργασίας ούτως ώστε να μπορούν να χρησιμοποιηθούν. Τέλος, στην τελευταία μας ενότητα θα καταγραφούν τα γενικά αποτελέσματα και συμπεράσματα που έχουν εξαχθεί από τη μελέτη των δυο προηγούμενων κεφαλαίων. | el |
dc.description.abstractEN | The aim of this thesis is the design and adaptation of sampling techniques of complex data types, whose common feature is that they are time-stamped and sequential data. Firstly, a proper collection and recording of these time-stamped data through various methods of sampling is needed. Then, data will be processed and produce some results and conclusions.
The collection of huge amount of data can be done by various methods of sampling. More specifically, the method of sampling is the obtaining of a portion of data from a broader set of data and the categorization of them into two sub-groups, based on probability sampling and non-probability sampling.
In the second section, we will present the various methods of probability sampling, including the Simple random Sampling, the Systematic Sampling, the Stratified Sampling, the Cluster Sampling and the Multistage Sampling, as well as the various methods of sampling without probability, which are the Convenience Sampling or Random Sampling and the Ratio Sampling or Percentage Sampling. In probability sampling the observations of the sample are chosen independently and with equal chances, while in sampling without probability the selection of the individual observations which form the sample is made in a fixed and predetermined (systematic) way.
Next, we will analyze the terms of Timeseries, Trajectories and Webclicks, terms that constitute typical examples of sequential data.. In addition, we will refer to methods of data mining, which will then be used to evaluate our results.
There will be a reference to the timeseries and a presentation of some representative examples, in order to make the term of sequential data more understandable. In particular, a Timeseries is a sequence of data points, commonly measured in successive time points separated by equal intervals of time. The observations that represent a Timeseries are obtained at certain time points or periods of time, which equidistant from one another, and are collected through a sampling method.
Onwards, there will be a reference to the Trajectories and a presentation of some representative examples, in order to make the term of the recorded tracks of a moving object more understandable (e.g. daily routes followed by commercial trucks in the center of Athens).
The second section concludes with the analysis of the Webclicks, which constitute the recording of the number of clicks made at a specific site by the various users. It is a method of sampling with final aim the conduct of study and the drawing of conclusions, in order to benefit the owners of the various websites.
In the third section, we will present relevant studies based on the terms of sampling Trajectories and Timeseries. There will also be an application of the sampling methods in already collected data, in order to draw some conclusions and get in contact with the methods.
The selected articles which will be included in our project in a summary form are: «Segmentation and Sampling of Moving Object Trajectories Based on Representativeness», «Trajectory Sampling for Direct Traffic Observation» and «Unsupervised Trajectory Sampling». These three articles represent relevant studies based on the terms of trajectory and sampling. Two types of data will be used, analyzed and go through sampling methods. The first type includes the coordinates of ships recorded during three continuous days, and the second type consists of closing share prices for the last four years. The data to be used are found online and have been treated so that they can be used.
Finally, in the last section we will record the overall results and conclusions drawn from the study of the two previous chapters. | el |
