Εμφάνιση απλής εγγραφής

Αυτόματη εποπτευόμενη μηχανική μάθηση με τεχνικές δειγματοληψίας

dc.contributor.advisorΔουλκερίδης, Χρήστος
dc.contributor.authorΚουρέας, Σταύρος
dc.date.accessioned2022-03-10T07:36:26Z
dc.date.available2022-03-10T07:36:26Z
dc.date.issued2022-02
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/14201
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/1624
dc.description.abstractΗ ανάλυση δεδομένων είναι ένας κλάδος της σύγχρονης επιστήμης, ο οποίος ασχολείται με τη διαχείριση και την ερμηνεία αξιοποιήσιμων πληροφοριών, οι οποίες πλέον αυξάνονται με ραγδαίους ρυθμούς. Σε αυτό το έγγραφο για τους σκοπούς της διπλωματικής εργασίας, θα ερευνηθούν αφενός εφαρμογές μηχανικής μάθησης σε σύνολα δεδομένων διαφόρων μεγεθών, τεχνολογίες που χρησιμοποιούνται κατά κόρον και αφενός οι τεχνικές βελτίωσης απόδοσης της μηχανικής μάθησης οι οποίες φαίνεται να ικανοποιούν συγκεκριμένες απαιτήσεις. Στην σημερινή εποχή «οπλισμένοι» με ένα πλήθος αλγορίθμων και υπερ-παραμέτρων μπορούμε να επιτύχουμε καταπληκτικά αποτελέσματα, όμως η κατάλληλη επιλογή τους είναι μια δύσκολη διαδικασία. Επεξεργαζόμενοι καθημερινά μεγάλα σύνολα δεδομένων οι απαιτήσεις σε επεξεργαστική ισχύ και σε χρόνο αυξάνονται. Οι περισσότεροι επιστημονικοί κλάδοι απαιτούν προβλέψεις με υψηλή ακρίβεια, κάτι το οποίο χρειάζεται αρκετή έρευνα για κάθε σύνολο δεδομένων προκειμένου να επιτευχθεί. Η παρούσα διπλωματική εργασία προτείνει μια νέα τεχνική με δειγματοληπτικές διαδικασίες, η οποία μπορεί να επιφέρει ικανοποιητικά αποτελέσματα σε λιγότερο χρόνο με μικρότερη επεξεργαστική ισχύ. Παράλληλα «χτίζει» μια μεθοδολογία για την ανάλυση μεγάλων δεδομένων και αντιμετώπισης γενικών προβλημάτων όπως οι ελλιπείς τιμές, οι αλφαριθμητικές τιμές αλλά και άλλα όπως τα ανισόρροπα σύνολα δεδομένων. Η τεχνική αυτή, λειτουργεί με την μέθοδο της δειγματοληψίας σε γραμμές αλλά και στις στήλες, αξιολογείται μέσω μιας πειραματικής διαδικασίας όπου συγκεντρώνονται αρκετά αποτελέσματα από διάφορα σύνολα δεδομένων και συγκρίνεται χωρίς την χρήση αυτής. Πιο συγκεκριμένα χρησιμοποιήθηκαν 15 σύνολα δεδομένων για binary classification, 15 για multi classification και 5 για regression. Όλα τα σύνολα δεδομένων είναι γνωστά σύνολα στον τομέα της μηχανικής μάθησης. Τα αποτελέσματα της πειραματικής διαδικασίας υπέδειξαν πως ένα 10% είναι αρκετό για δειγματοληψία στις γραμμές και ένα 80% είναι αρκετό για δειγματοληψία στις στήλες με βάση την συσχέτιση. Το αποτέλεσμα φαίνεται να είναι ικανοποιητικό αφού η ίδια επιλογή των αλγορίθμων με χρήση του sample έναντι του complete φτάνει στο 80%, ενώ στην περίπτωση που ο αλγόριθμος επιλογής δεν είναι ο ίδιος υπάρχει πιθανότητα που ξεπερνά το 70% να είναι ο αμέσως καλύτερος. Αυτό πρακτικά σημαίνει πως αν σε ένα μικρότερο σύνολο δεδομένων ληφθεί η απόφαση για την χρήση ενός αλγορίθμου τότε αυτός ο αλγόριθμος είναι αρκετά πιθανό να λειτουργήσει καλύτερα και σε όλο το σύνολο δεδομένων. Συγκεκριμένα η τεχνική αυτή έχει υλοποιηθεί σε γλώσσα python υπό μορφή βιβλιοθήκης, η οποία αποτελείται από αρκετές υπο-διαδικασίες με συγκεκριμένη σειρά και οργάνωση. Κάθε υπο-διαδικασία χειρίζεται συγκεκριμένες αποφάσεις κατά το στάδιο της προ-επεξεργασίας, όπως την διαχείριση δειγματοληψίας στις γραμμές, την διαχείριση δειγματοληψίας στις στήλες, την αντιμετώπιση ελλιπών τιμών, την κανονικοποίηση αλλά και στο στάδιο της μοντελοποίησης όπως την επιλογή αλγορίθμου και την βελτιστοποίηση υπερ-παραμέτρων. Ακόμα, αυτή η βιβλιοθήκη έχει δημοσιοποιηθεί στο repository PiPy με το όνομα “AutoMLWrapper” (αφού πρόκειται για ένα σύνολο υπο-διαδικασιών ειδικότερων μεθόδων) και συνοδεύεται από σχετικό notebook sample. https://pypi.org/project/automlwrapper/ Έτσι η διανομή και εκτέλεση μπορεί να γίνει εύκολα και γρήγορα σε ένα οποιοδήποτε περιβάλλον python απλά εγκαθιστώντας την βιβλιοθήκη με την χρήση του pip install ώστε η χρήση της να είναι άμεση από τον τελικό χρήστη.el
dc.format.extent67el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΑυτόματη εποπτευόμενη μηχανική μάθηση με τεχνικές δειγματοληψίαςel
dc.title.alternativeAutomated supervised machine learning with sampling techniquesel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENData analysis is a sector of modern science that deals with the management and interpretation of usable information, which is now growing rapidly. In this thesis, machine learning applications will be researched in data sets of various sizes, technologies mentioned at the beginning and on the one hand the machine learning improvement technique the devices seem to meet specific specifications. Nowadays "armed" with a multitude of algorithms and hyper-parameters we can achieve amazing results but choosing the right combinations is a difficult process. By processing large data sets daily, the demands on processing power and time increase. Most disciplines require highly accurate predictions, which requires a great deal of research in each data set. This thesis aims to propose a new technique with sampling procedures, which can bring satisfactory results in less time with less processing power. At the same time, it "builds" a methodology for analyzing big data and dealing with general problems such as missing values, alphanumeric values and others such as unbalanced data sets. This technique works with the method of sampling in rows and columns, is evaluated through an experimental process where several results are collected from different data sets and compared without using it. More specifically, 15 data sets were used for binary classification, 15 for multi classification and 5 for regression. All data sets are known datasets in the field of machine learning. The results of the experimental procedure indicated that 10% is sufficient for sampling in rows and 80% is sufficient for sampling in columns based on correlation. The result seems to be satisfactory since the same selection of algorithms with the use of the sample against complete at 80%, while in the case that the selection algorithm is not the same, there is a probability that exceeds 70% on selecting an algorithm that is the next better one. This practically means that if in a smaller data set the decision to use an algorithm was made, then this algorithm is quite likely to work better in the whole data set. Specifically, this technique is developed in python language in the form of a library, which consists of specific organized sub-procedures. Each sub-process handles specific decisions during the pre-processing stage, such as sampling management in rows, sampling management in columns, dealing with missing values, normalization but also in the modeling stage such as algorithm selection and hyperparameter optimization. However, this library has been published in the PiPy repository under the name "AutoMLWrapper" (since it is a set of subsystems of special methods) and is accompanied by a relevant notebook sample. https://pypi.org/project/automlwrapper/ So distribution and execution can be done easily and quickly in a simple python environment by installing the library using pip install, so its use is direct to the end user.el
dc.contributor.masterΠληροφοριακά Συστήματα και Υπηρεσίεςel
dc.subject.keywordΑυτόματη μηχανική μάθησηel
dc.subject.keywordΑυτόματοποιημένη μηχανική μάθησηel
dc.subject.keywordΜηχανική μάθησηel
dc.subject.keywordΔειγματοληπτικές τεχνικέςel
dc.subject.keywordΔειγματοληψίαel
dc.subject.keywordΤεχνικές δειγματοληψίαςel
dc.date.defense2022-03


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»