An undeciphered script in the age of AI : a corpus-constrained computational analysis of Linear A
Ένα άγνωστο σύστημα γραφής στην εποχή της ΤΝ : υπολογιστική ανάλυση της Γραμμικής Α με περιορισμένα δεδομένα
Master Thesis
Συγγραφέας
Briakos, Nikolaos
Μπριάκος, Νικόλαος
Ημερομηνία
2026-05Επιβλέπων
Venetis, IoannisΒενέτης, Ιωάννης
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
AI ; Undeciphered scripts ; Computational linguistics ; Linear A ; Τεχνητή νοημοσύνη ; Γραμμική ΑΠερίληψη
Η παρούσα διατριβή εξετάζει ένα ακόμη αναπάντητο ερώτημα της υπολογιστικής γλωσσολογίας: μπορεί η τεχνητή νοημοσύνη να συμβάλει στη μελέτη και ενδεχομένως στην αποκρυπτογράφηση της Γραμμικής Α, της άγνωστης γραφής της Μινωικής Κρήτης (περίπου 1800–1450 π.Χ.); Χρησιμοποιώντας corpus 419 tablets από τη βάση δεδομένων lineara.xyz (παραγόμενο από το GORILA, N = 2.481 σύμβολα), η εργασία προσεγγίζει το ερώτημα μέσα από τρεις συμπληρωματικές αναλύσεις.
Τι μπορεί ήδη να ανιχνεύσει η ΤΝ. Το σώμα παρουσιάζει κατανομή Zipf στα σύμβολα, συστηματικές θέσεις εμφάνισης, διαφοροποίηση μεταξύ διαφορετικών τύπων κειμένων (JSD = 0,0944 bits, p = 0,018), σημαντικές διακυμάνσεις στο μήκος λέξεων ανά τόπο (Cohen’s d = 0,692 μεταξύ Φαιστού και Χανίων), καθώς και 23 χαρακτηριστικά «δείγματα» γραφών με ιδιαίτερες προτιμήσεις διγραμμάτων. Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι ένας μη εποπτευόμενος αλγόριθμος ανίχνευσης τύπων αναγνώρισε 5 από τα 9 στοιχεία του γνωστού «τύπου σπονδής» σε 31 λίθινα αγγεία από 14 διαφορετικούς τόπους, χωρίς προηγούμενη γνώση της δομής του τύπου. Τα αποτελέσματα αυτά δείχνουν ότι μέθοδοι τεχνητής νοημοσύνης μπορούν να εντοπίσουν δομικές κανονικότητες χρήσιμες για την επιγραφική ανάλυση.
Τι μπορεί να μάθει η ΤΝ από το υπάρχον σώμα. Ένα μικρό Transformer τεσσάρων layers (~2 εκατ. παράμετροι, masked language modeling) εκπαιδευμένο σε GPU πέτυχε μέγιστη ακρίβεια επικύρωσης 90,2% και ανακατασκεύασε σωστά τον συχνότερο συνδυασμό συμβόλων (KU-RO, p = 0,59 και στις δύο κατευθύνσεις). Τα αποτελέσματα υποδεικνύουν ότι το μοντέλο έχει μάθει σημαντικές πτυχές της διανεμητικής δομής του σημειολογικού αποθέματος της Γραμμικής Α. Παράλληλα, πολυτροπική ανάλυση που συνδύασε οπτικά χαρακτηριστικά εικόνας (PIL) με ενσωματώσεις συμβόλων δεν εντόπισε ουσιαστική γεωγραφική ομαδοποίηση - ο παρατηρούμενος διαχωρισμός στον οπτικό χώρο φαίνεται να σχετίζεται κυρίως με συνθήκες φωτογράφισης (r = −0,990 με τη φωτεινότητα, R² = 0,98).
Τι δεν μπορεί ακόμη να επιτύχει η ΤΝ. Πειράματα βαθμονόμησης με συνθετικό υλικό Γραμμικής Β, κατασκευασμένο ώστε να προσεγγίζει τις δημοσιευμένες κατανομές συχνότητας, έδειξαν ότι με 2.481 σύμβολα η ακρίβεια αντιστοίχισης με βάση τη συχνότητα φτάνει μόλις το 13% (top-1). Bayesian προσέγγιση για την απόδοση φωνητικών τιμών παρήγαγε σχεδόν επίπεδες κατανομές πιθανοτήτων (μέγιστη απόκλιση 2,1 φορές από την ομοιόμορφη κατανομή), γεγονός που δείχνει ότι το μοντέλο δεν μπορεί ακόμη να μετατρέψει τις στατιστικές δομές που έχει μάθει σε αξιόπιστες φωνητικές αντιστοιχίσεις χωρίς σημαντικά μεγαλύτερο σώμα δεδομένων. Τα ίδια πειράματα τοποθετούν το πρακτικό όριο για χρήσιμη φωνητική εξαγωγή περίπου στις 10.000 εμφανίσεις συμβόλων — περίπου 7.500 περισσότερες από όσες διαθέτουμε σήμερα.
Κύριο συμπέρασμα. Τα αποτελέσματα υποδεικνύουν ότι ο σημαντικότερος περιορισμός δεν είναι η πολυπλοκότητα της γραφής ούτε η αρχιτεκτονική των μοντέλων, αλλά το μικρό μέγεθος του διαθέσιμου σώματος. Η τεχνητή νοημοσύνη μπορεί ήδη να αναγνωρίσει και να μοντελοποιήσει τη διανεμητική δομή των ακολουθιών συμβόλων της Γραμμικής Α. Δεν μπορεί ακόμη να εξαγάγει αξιόπιστες φωνητικές αντιστοιχίσεις, όμως το σχετικό χάσμα μπορεί πλέον να ποσοτικοποιηθεί και αναμένεται να μειωθεί με την αύξηση του διαθέσιμου επιγραφικού υλικού.


