Αυτόματη εποπτευόμενη μηχανική μάθηση με τεχνικές δειγματοληψίας

Κουρέας, Σταύρος

dc.contributor.advisor	Δουλκερίδης, Χρήστος
dc.contributor.author	Κουρέας, Σταύρος
dc.date.accessioned	2022-03-10T07:36:26Z
dc.date.available	2022-03-10T07:36:26Z
dc.date.issued	2022-02
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/14201
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/1624
dc.description.abstract	Η ανάλυση δεδομένων είναι ένας κλάδος της σύγχρονης επιστήμης, ο οποίος ασχολείται με τη διαχείριση και την ερμηνεία αξιοποιήσιμων πληροφοριών, οι οποίες πλέον αυξάνονται με ραγδαίους ρυθμούς. Σε αυτό το έγγραφο για τους σκοπούς της διπλωματικής εργασίας, θα ερευνηθούν αφενός εφαρμογές μηχανικής μάθησης σε σύνολα δεδομένων διαφόρων μεγεθών, τεχνολογίες που χρησιμοποιούνται κατά κόρον και αφενός οι τεχνικές βελτίωσης απόδοσης της μηχανικής μάθησης οι οποίες φαίνεται να ικανοποιούν συγκεκριμένες απαιτήσεις. Στην σημερινή εποχή «οπλισμένοι» με ένα πλήθος αλγορίθμων και υπερ-παραμέτρων μπορούμε να επιτύχουμε καταπληκτικά αποτελέσματα, όμως η κατάλληλη επιλογή τους είναι μια δύσκολη διαδικασία. Επεξεργαζόμενοι καθημερινά μεγάλα σύνολα δεδομένων οι απαιτήσεις σε επεξεργαστική ισχύ και σε χρόνο αυξάνονται. Οι περισσότεροι επιστημονικοί κλάδοι απαιτούν προβλέψεις με υψηλή ακρίβεια, κάτι το οποίο χρειάζεται αρκετή έρευνα για κάθε σύνολο δεδομένων προκειμένου να επιτευχθεί. Η παρούσα διπλωματική εργασία προτείνει μια νέα τεχνική με δειγματοληπτικές διαδικασίες, η οποία μπορεί να επιφέρει ικανοποιητικά αποτελέσματα σε λιγότερο χρόνο με μικρότερη επεξεργαστική ισχύ. Παράλληλα «χτίζει» μια μεθοδολογία για την ανάλυση μεγάλων δεδομένων και αντιμετώπισης γενικών προβλημάτων όπως οι ελλιπείς τιμές, οι αλφαριθμητικές τιμές αλλά και άλλα όπως τα ανισόρροπα σύνολα δεδομένων. Η τεχνική αυτή, λειτουργεί με την μέθοδο της δειγματοληψίας σε γραμμές αλλά και στις στήλες, αξιολογείται μέσω μιας πειραματικής διαδικασίας όπου συγκεντρώνονται αρκετά αποτελέσματα από διάφορα σύνολα δεδομένων και συγκρίνεται χωρίς την χρήση αυτής. Πιο συγκεκριμένα χρησιμοποιήθηκαν 15 σύνολα δεδομένων για binary classification, 15 για multi classification και 5 για regression. Όλα τα σύνολα δεδομένων είναι γνωστά σύνολα στον τομέα της μηχανικής μάθησης. Τα αποτελέσματα της πειραματικής διαδικασίας υπέδειξαν πως ένα 10% είναι αρκετό για δειγματοληψία στις γραμμές και ένα 80% είναι αρκετό για δειγματοληψία στις στήλες με βάση την συσχέτιση. Το αποτέλεσμα φαίνεται να είναι ικανοποιητικό αφού η ίδια επιλογή των αλγορίθμων με χρήση του sample έναντι του complete φτάνει στο 80%, ενώ στην περίπτωση που ο αλγόριθμος επιλογής δεν είναι ο ίδιος υπάρχει πιθανότητα που ξεπερνά το 70% να είναι ο αμέσως καλύτερος. Αυτό πρακτικά σημαίνει πως αν σε ένα μικρότερο σύνολο δεδομένων ληφθεί η απόφαση για την χρήση ενός αλγορίθμου τότε αυτός ο αλγόριθμος είναι αρκετά πιθανό να λειτουργήσει καλύτερα και σε όλο το σύνολο δεδομένων. Συγκεκριμένα η τεχνική αυτή έχει υλοποιηθεί σε γλώσσα python υπό μορφή βιβλιοθήκης, η οποία αποτελείται από αρκετές υπο-διαδικασίες με συγκεκριμένη σειρά και οργάνωση. Κάθε υπο-διαδικασία χειρίζεται συγκεκριμένες αποφάσεις κατά το στάδιο της προ-επεξεργασίας, όπως την διαχείριση δειγματοληψίας στις γραμμές, την διαχείριση δειγματοληψίας στις στήλες, την αντιμετώπιση ελλιπών τιμών, την κανονικοποίηση αλλά και στο στάδιο της μοντελοποίησης όπως την επιλογή αλγορίθμου και την βελτιστοποίηση υπερ-παραμέτρων. Ακόμα, αυτή η βιβλιοθήκη έχει δημοσιοποιηθεί στο repository PiPy με το όνομα “AutoMLWrapper” (αφού πρόκειται για ένα σύνολο υπο-διαδικασιών ειδικότερων μεθόδων) και συνοδεύεται από σχετικό notebook sample. https://pypi.org/project/automlwrapper/ Έτσι η διανομή και εκτέλεση μπορεί να γίνει εύκολα και γρήγορα σε ένα οποιοδήποτε περιβάλλον python απλά εγκαθιστώντας την βιβλιοθήκη με την χρήση του pip install ώστε η χρήση της να είναι άμεση από τον τελικό χρήστη.	el
dc.format.extent	67	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Αυτόματη εποπτευόμενη μηχανική μάθηση με τεχνικές δειγματοληψίας	el
dc.title.alternative	Automated supervised machine learning with sampling techniques	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	Data analysis is a sector of modern science that deals with the management and interpretation of usable information, which is now growing rapidly. In this thesis, machine learning applications will be researched in data sets of various sizes, technologies mentioned at the beginning and on the one hand the machine learning improvement technique the devices seem to meet specific specifications. Nowadays "armed" with a multitude of algorithms and hyper-parameters we can achieve amazing results but choosing the right combinations is a difficult process. By processing large data sets daily, the demands on processing power and time increase. Most disciplines require highly accurate predictions, which requires a great deal of research in each data set. This thesis aims to propose a new technique with sampling procedures, which can bring satisfactory results in less time with less processing power. At the same time, it "builds" a methodology for analyzing big data and dealing with general problems such as missing values, alphanumeric values and others such as unbalanced data sets. This technique works with the method of sampling in rows and columns, is evaluated through an experimental process where several results are collected from different data sets and compared without using it. More specifically, 15 data sets were used for binary classification, 15 for multi classification and 5 for regression. All data sets are known datasets in the field of machine learning. The results of the experimental procedure indicated that 10% is sufficient for sampling in rows and 80% is sufficient for sampling in columns based on correlation. The result seems to be satisfactory since the same selection of algorithms with the use of the sample against complete at 80%, while in the case that the selection algorithm is not the same, there is a probability that exceeds 70% on selecting an algorithm that is the next better one. This practically means that if in a smaller data set the decision to use an algorithm was made, then this algorithm is quite likely to work better in the whole data set. Specifically, this technique is developed in python language in the form of a library, which consists of specific organized sub-procedures. Each sub-process handles specific decisions during the pre-processing stage, such as sampling management in rows, sampling management in columns, dealing with missing values, normalization but also in the modeling stage such as algorithm selection and hyperparameter optimization. However, this library has been published in the PiPy repository under the name "AutoMLWrapper" (since it is a set of subsystems of special methods) and is accompanied by a relevant notebook sample. https://pypi.org/project/automlwrapper/ So distribution and execution can be done easily and quickly in a simple python environment by installing the library using pip install, so its use is direct to the end user.	el
dc.contributor.master	Πληροφοριακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Αυτόματη μηχανική μάθηση	el
dc.subject.keyword	Αυτόματοποιημένη μηχανική μάθηση	el
dc.subject.keyword	Μηχανική μάθηση	el
dc.subject.keyword	Δειγματοληπτικές τεχνικές	el
dc.subject.keyword	Δειγματοληψία	el
dc.subject.keyword	Τεχνικές δειγματοληψίας	el
dc.date.defense	2022-03

Αρχεία σε αυτό το τεκμήριο

Name:: Διπλωματική Εργασία.pdf
Μέγεθος:: 2.097Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα