Automated free speech to SQL transcription

Master Thesis
Συγγραφέας
Toliopoulou, Christina Anna
Τολιοπούλου, Χριστίνα Άννα
Ημερομηνία
2025-09Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Artificial Intelligence ; Speech-to-sql ; Large language models ; Evaluation of existing models ; Natural language processing ; Database query automation ; Voice-to-textΠερίληψη
Η προσέγγιση Speech-to-SQL αποτελεί μια καινοτόμο μέθοδο που έχει σχεδιαστεί για να
γεφυρώσει το χάσμα μεταξύ μη τεχνικών χρηστών και της διαδικασίας εκτέλεσης ερωτη-
μάτων σε βάσεις δεδομένων. Το έργο παρουσιάζει μια ολοκληρωμένη εφαρμογή, η οποία
μετατρέπει εντολές από φυσική γλώσσα σε ερωτήματα SQL, με δυνατότητα εξαγωγής των
αποτελεσμάτων σε αρχεία τύπου flat για επιχειρηματική ανάλυση. Για την αξιολόγηση της
αποτελεσματικότητας της προσέγγισης, δοκιμάστηκαν και συγκρίθηκαν μοντέλα ανοικτού
κώδικα και εμπορικά Μοντέλα Μεγάλης Κλίμακας (LLMs), καθώς και τοπικά φιλοξενού-
μενα μοντέλα. Στόχος ήταν να εντοπιστεί το πλέον κατάλληλο μοντέλο για τη συγκεκριμένη
περίπτωση χρήσης, ενώ ταυτόχρονα να δημιουργηθεί μια φιλική προς τον χρήστη διαδικτυ-
ακή εφαρμογή που να επιτρέπει την ηχογράφηση ή τη μεταφόρτωση εντολών. Αν και κανένα
μοντέλο δεν υπερείχε σταθερά έναντι των υπολοίπων σε όλα τα σενάρια, τα ευρήματα έδειξαν
ότι η απόδοση επηρεάστηκε σημαντικά από την πολυπλοκότητα του ερωτήματος και τις δι-
αφορετικές διατυπώσεις του ίδιου ερωτήματος. Τα μοντέλα OpenAI, Gemini και Claude
αναδείχθηκαν ως τα πιο αποδοτικά ως προς την ακρίβεια πρόβλεψης των ερωτημάτων, ενώ
ο χρόνος απόκρισής τους βρέθηκε να είναι σχετικά παρόμοιος. Καταλήξαμε ότι απαιτούν-
ται επιπλέον βήματα πριν από την παράδοση μιας συμπαγούς και έτοιμης για παραγωγή
εφαρμογής. Αυτά περιλαμβάνουν την υλοποίηση συνδέσεων με πολλαπλούς τύπους βάσεων
δεδομένων και τη βελτιστοποίηση των μοντέλων, ώστε να μειωθεί το λειτουργικό κόστος.


