dc.contributor.advisor | Δουλκερίδης, Χρήστος | |
dc.contributor.author | Κουρέας, Σταύρος | |
dc.date.accessioned | 2022-03-10T07:36:26Z | |
dc.date.available | 2022-03-10T07:36:26Z | |
dc.date.issued | 2022-02 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/14201 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/1624 | |
dc.description.abstract | Η ανάλυση δεδομένων είναι ένας κλάδος της σύγχρονης επιστήμης, ο οποίος ασχολείται με τη
διαχείριση και την ερμηνεία αξιοποιήσιμων πληροφοριών, οι οποίες πλέον αυξάνονται με
ραγδαίους ρυθμούς. Σε αυτό το έγγραφο για τους σκοπούς της διπλωματικής εργασίας, θα
ερευνηθούν αφενός εφαρμογές μηχανικής μάθησης σε σύνολα δεδομένων διαφόρων μεγεθών,
τεχνολογίες που χρησιμοποιούνται κατά κόρον και αφενός οι τεχνικές βελτίωσης απόδοσης
της μηχανικής μάθησης οι οποίες φαίνεται να ικανοποιούν συγκεκριμένες απαιτήσεις.
Στην σημερινή εποχή «οπλισμένοι» με ένα πλήθος αλγορίθμων και υπερ-παραμέτρων
μπορούμε να επιτύχουμε καταπληκτικά αποτελέσματα, όμως η κατάλληλη επιλογή τους είναι
μια δύσκολη διαδικασία. Επεξεργαζόμενοι καθημερινά μεγάλα σύνολα δεδομένων οι
απαιτήσεις σε επεξεργαστική ισχύ και σε χρόνο αυξάνονται. Οι περισσότεροι επιστημονικοί
κλάδοι απαιτούν προβλέψεις με υψηλή ακρίβεια, κάτι το οποίο χρειάζεται αρκετή έρευνα για
κάθε σύνολο δεδομένων προκειμένου να επιτευχθεί.
Η παρούσα διπλωματική εργασία προτείνει μια νέα τεχνική με δειγματοληπτικές διαδικασίες,
η οποία μπορεί να επιφέρει ικανοποιητικά αποτελέσματα σε λιγότερο χρόνο με μικρότερη
επεξεργαστική ισχύ. Παράλληλα «χτίζει» μια μεθοδολογία για την ανάλυση μεγάλων
δεδομένων και αντιμετώπισης γενικών προβλημάτων όπως οι ελλιπείς τιμές, οι
αλφαριθμητικές τιμές αλλά και άλλα όπως τα ανισόρροπα σύνολα δεδομένων.
Η τεχνική αυτή, λειτουργεί με την μέθοδο της δειγματοληψίας σε γραμμές αλλά και στις
στήλες, αξιολογείται μέσω μιας πειραματικής διαδικασίας όπου συγκεντρώνονται αρκετά
αποτελέσματα από διάφορα σύνολα δεδομένων και συγκρίνεται χωρίς την χρήση αυτής. Πιο
συγκεκριμένα χρησιμοποιήθηκαν 15 σύνολα δεδομένων για binary classification, 15 για multi
classification και 5 για regression. Όλα τα σύνολα δεδομένων είναι γνωστά σύνολα στον τομέα
της μηχανικής μάθησης.
Τα αποτελέσματα της πειραματικής διαδικασίας υπέδειξαν πως ένα 10% είναι αρκετό για
δειγματοληψία στις γραμμές και ένα 80% είναι αρκετό για δειγματοληψία στις στήλες με βάση
την συσχέτιση. Το αποτέλεσμα φαίνεται να είναι ικανοποιητικό αφού η ίδια επιλογή των
αλγορίθμων με χρήση του sample έναντι του complete φτάνει στο 80%, ενώ στην περίπτωση
που ο αλγόριθμος επιλογής δεν είναι ο ίδιος υπάρχει πιθανότητα που ξεπερνά το 70% να είναι
ο αμέσως καλύτερος. Αυτό πρακτικά σημαίνει πως αν σε ένα μικρότερο σύνολο δεδομένων
ληφθεί η απόφαση για την χρήση ενός αλγορίθμου τότε αυτός ο αλγόριθμος είναι αρκετά
πιθανό να λειτουργήσει καλύτερα και σε όλο το σύνολο δεδομένων.
Συγκεκριμένα η τεχνική αυτή έχει υλοποιηθεί σε γλώσσα python υπό μορφή βιβλιοθήκης, η
οποία αποτελείται από αρκετές υπο-διαδικασίες με συγκεκριμένη σειρά και οργάνωση. Κάθε
υπο-διαδικασία χειρίζεται συγκεκριμένες αποφάσεις κατά το στάδιο της προ-επεξεργασίας,
όπως την διαχείριση δειγματοληψίας στις γραμμές, την διαχείριση δειγματοληψίας στις στήλες,
την αντιμετώπιση ελλιπών τιμών, την κανονικοποίηση αλλά και στο στάδιο της
μοντελοποίησης όπως την επιλογή αλγορίθμου και την βελτιστοποίηση υπερ-παραμέτρων.
Ακόμα, αυτή η βιβλιοθήκη έχει δημοσιοποιηθεί στο repository PiPy με το όνομα
“AutoMLWrapper” (αφού πρόκειται για ένα σύνολο υπο-διαδικασιών ειδικότερων μεθόδων)
και συνοδεύεται από σχετικό notebook sample. https://pypi.org/project/automlwrapper/ Έτσι η
διανομή και εκτέλεση μπορεί να γίνει εύκολα και γρήγορα σε ένα οποιοδήποτε περιβάλλον
python απλά εγκαθιστώντας την βιβλιοθήκη με την χρήση του pip install ώστε η χρήση της να
είναι άμεση από τον τελικό χρήστη. | el |
dc.format.extent | 67 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Αυτόματη εποπτευόμενη μηχανική μάθηση με τεχνικές δειγματοληψίας | el |
dc.title.alternative | Automated supervised machine learning with sampling techniques | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | Data analysis is a sector of modern science that deals with the management and interpretation
of usable information, which is now growing rapidly. In this thesis, machine learning
applications will be researched in data sets of various sizes, technologies mentioned at the
beginning and on the one hand the machine learning improvement technique the devices seem
to meet specific specifications.
Nowadays "armed" with a multitude of algorithms and hyper-parameters we can achieve
amazing results but choosing the right combinations is a difficult process. By processing large
data sets daily, the demands on processing power and time increase. Most disciplines require
highly accurate predictions, which requires a great deal of research in each data set.
This thesis aims to propose a new technique with sampling procedures, which can bring
satisfactory results in less time with less processing power. At the same time, it "builds" a
methodology for analyzing big data and dealing with general problems such as missing values,
alphanumeric values and others such as unbalanced data sets.
This technique works with the method of sampling in rows and columns, is evaluated through
an experimental process where several results are collected from different data sets and
compared without using it. More specifically, 15 data sets were used for binary classification,
15 for multi classification and 5 for regression. All data sets are known datasets in the field of
machine learning.
The results of the experimental procedure indicated that 10% is sufficient for sampling in rows
and 80% is sufficient for sampling in columns based on correlation. The result seems to be
satisfactory since the same selection of algorithms with the use of the sample against complete
at 80%, while in the case that the selection algorithm is not the same, there is a probability that
exceeds 70% on selecting an algorithm that is the next better one. This practically means that
if in a smaller data set the decision to use an algorithm was made, then this algorithm is quite
likely to work better in the whole data set.
Specifically, this technique is developed in python language in the form of a library, which
consists of specific organized sub-procedures. Each sub-process handles specific decisions
during the pre-processing stage, such as sampling management in rows, sampling management
in columns, dealing with missing values, normalization but also in the modeling stage such as
algorithm selection and hyperparameter optimization.
However, this library has been published in the PiPy repository under the name
"AutoMLWrapper" (since it is a set of subsystems of special methods) and is accompanied
by a relevant notebook sample. https://pypi.org/project/automlwrapper/ So distribution and
execution can be done easily and quickly in a simple python environment by installing the
library using pip install, so its use is direct to the end user. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Αυτόματη μηχανική μάθηση | el |
dc.subject.keyword | Αυτόματοποιημένη μηχανική μάθηση | el |
dc.subject.keyword | Μηχανική μάθηση | el |
dc.subject.keyword | Δειγματοληπτικές τεχνικές | el |
dc.subject.keyword | Δειγματοληψία | el |
dc.subject.keyword | Τεχνικές δειγματοληψίας | el |
dc.date.defense | 2022-03 | |