An undeciphered script in the age of AI : a corpus-constrained computational analysis of Linear A

Briakos, Nikolaos; Μπριάκος, Νικόλαος

dc.contributor.advisor	Venetis, Ioannis
dc.contributor.advisor	Βενέτης, Ιωάννης
dc.contributor.author	Briakos, Nikolaos
dc.contributor.author	Μπριάκος, Νικόλαος
dc.date.accessioned	2026-05-18T09:39:34Z
dc.date.available	2026-05-18T09:39:34Z
dc.date.issued	2026-05
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/19328
dc.description.abstract	Η παρούσα διατριβή εξετάζει ένα ακόμη αναπάντητο ερώτημα της υπολογιστικής γλωσσολογίας: μπορεί η τεχνητή νοημοσύνη να συμβάλει στη μελέτη και ενδεχομένως στην αποκρυπτογράφηση της Γραμμικής Α, της άγνωστης γραφής της Μινωικής Κρήτης (περίπου 1800–1450 π.Χ.); Χρησιμοποιώντας corpus 419 tablets από τη βάση δεδομένων lineara.xyz (παραγόμενο από το GORILA, N = 2.481 σύμβολα), η εργασία προσεγγίζει το ερώτημα μέσα από τρεις συμπληρωματικές αναλύσεις. Τι μπορεί ήδη να ανιχνεύσει η ΤΝ. Το σώμα παρουσιάζει κατανομή Zipf στα σύμβολα, συστηματικές θέσεις εμφάνισης, διαφοροποίηση μεταξύ διαφορετικών τύπων κειμένων (JSD = 0,0944 bits, p = 0,018), σημαντικές διακυμάνσεις στο μήκος λέξεων ανά τόπο (Cohen’s d = 0,692 μεταξύ Φαιστού και Χανίων), καθώς και 23 χαρακτηριστικά «δείγματα» γραφών με ιδιαίτερες προτιμήσεις διγραμμάτων. Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι ένας μη εποπτευόμενος αλγόριθμος ανίχνευσης τύπων αναγνώρισε 5 από τα 9 στοιχεία του γνωστού «τύπου σπονδής» σε 31 λίθινα αγγεία από 14 διαφορετικούς τόπους, χωρίς προηγούμενη γνώση της δομής του τύπου. Τα αποτελέσματα αυτά δείχνουν ότι μέθοδοι τεχνητής νοημοσύνης μπορούν να εντοπίσουν δομικές κανονικότητες χρήσιμες για την επιγραφική ανάλυση. Τι μπορεί να μάθει η ΤΝ από το υπάρχον σώμα. Ένα μικρό Transformer τεσσάρων layers (~2 εκατ. παράμετροι, masked language modeling) εκπαιδευμένο σε GPU πέτυχε μέγιστη ακρίβεια επικύρωσης 90,2% και ανακατασκεύασε σωστά τον συχνότερο συνδυασμό συμβόλων (KU-RO, p = 0,59 και στις δύο κατευθύνσεις). Τα αποτελέσματα υποδεικνύουν ότι το μοντέλο έχει μάθει σημαντικές πτυχές της διανεμητικής δομής του σημειολογικού αποθέματος της Γραμμικής Α. Παράλληλα, πολυτροπική ανάλυση που συνδύασε οπτικά χαρακτηριστικά εικόνας (PIL) με ενσωματώσεις συμβόλων δεν εντόπισε ουσιαστική γεωγραφική ομαδοποίηση - ο παρατηρούμενος διαχωρισμός στον οπτικό χώρο φαίνεται να σχετίζεται κυρίως με συνθήκες φωτογράφισης (r = −0,990 με τη φωτεινότητα, R² = 0,98). Τι δεν μπορεί ακόμη να επιτύχει η ΤΝ. Πειράματα βαθμονόμησης με συνθετικό υλικό Γραμμικής Β, κατασκευασμένο ώστε να προσεγγίζει τις δημοσιευμένες κατανομές συχνότητας, έδειξαν ότι με 2.481 σύμβολα η ακρίβεια αντιστοίχισης με βάση τη συχνότητα φτάνει μόλις το 13% (top-1). Bayesian προσέγγιση για την απόδοση φωνητικών τιμών παρήγαγε σχεδόν επίπεδες κατανομές πιθανοτήτων (μέγιστη απόκλιση 2,1 φορές από την ομοιόμορφη κατανομή), γεγονός που δείχνει ότι το μοντέλο δεν μπορεί ακόμη να μετατρέψει τις στατιστικές δομές που έχει μάθει σε αξιόπιστες φωνητικές αντιστοιχίσεις χωρίς σημαντικά μεγαλύτερο σώμα δεδομένων. Τα ίδια πειράματα τοποθετούν το πρακτικό όριο για χρήσιμη φωνητική εξαγωγή περίπου στις 10.000 εμφανίσεις συμβόλων — περίπου 7.500 περισσότερες από όσες διαθέτουμε σήμερα. Κύριο συμπέρασμα. Τα αποτελέσματα υποδεικνύουν ότι ο σημαντικότερος περιορισμός δεν είναι η πολυπλοκότητα της γραφής ούτε η αρχιτεκτονική των μοντέλων, αλλά το μικρό μέγεθος του διαθέσιμου σώματος. Η τεχνητή νοημοσύνη μπορεί ήδη να αναγνωρίσει και να μοντελοποιήσει τη διανεμητική δομή των ακολουθιών συμβόλων της Γραμμικής Α. Δεν μπορεί ακόμη να εξαγάγει αξιόπιστες φωνητικές αντιστοιχίσεις, όμως το σχετικό χάσμα μπορεί πλέον να ποσοτικοποιηθεί και αναμένεται να μειωθεί με την αύξηση του διαθέσιμου επιγραφικού υλικού.	el
dc.format.extent	64	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.title	An undeciphered script in the age of AI : a corpus-constrained computational analysis of Linear A	el
dc.title.alternative	Ένα άγνωστο σύστημα γραφής στην εποχή της ΤΝ : υπολογιστική ανάλυση της Γραμμικής Α με περιορισμένα δεδομένα	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	This thesis investigates an unresolved question in computational linguistics: can artificial intelligence contribute to the study and eventual decipherment of Linear A, the undeciphered Bronze Age script of Minoan Crete (c. 1800–1450 BCE)? Using a corpus of 419 tablets from the lineara.xyz database (GORILA-derived, N = 2,481 sign tokens), the study approaches this question through three complementary analyses. What AI can already detect. The corpus exhibits Zipfian sign distributions, systematic positional biases, register divergence (JSD = 0.0944 bits, permutation p = 0.018), cross-site variation in word length (Cohen’s d = 0.692, Phaistos vs. Khania), and 23 scribal fingerprints characterised by distinctive bigram preferences. Of particular interest, an unsupervised formula-detection algorithm recovered 5 of the 9 human-identified elements of the known libation formula from a 31-tablet stone-vessel corpus spanning 14 archaeological sites, without prior knowledge of the formula structure. These findings indicate that AI methods can recover structurally meaningful regularities relevant to epigraphic analysis. What AI can learn from the current corpus. A small Transformer model (4-layer masked language model, ~2M parameters) trained on GPU achieved 90.2% peak validation accuracy and correctly reconstructed the most frequent Linear A sign collocation (KU-RO, p = 0.59 in both directions). The results suggest that the model captures important aspects of the distributional structure of the Linear A sign inventory. A multimodal analysis combining PIL-derived visual image features with distributional sign embeddings identified no meaningful geographic clustering; the apparent separation observed in visual PC1/PC2 space appears primarily attributable to photographic exposure conditions (visual PC1 r = −0.990 with image brightness, R² = 0.98). What AI cannot yet achieve. A Linear B calibration experiment using a synthetic corpus constructed from published frequency distributions showed that frequency rank-matching accuracy at N = 2,481 tokens reaches only 13% top-1 accuracy. Bayesian phonetic inference produced near-uniform posterior distributions (maximum deviation 2.1× above the uniform baseline), indicating that the model cannot yet transform learned statistical structure into reliable phonetic value assignments without a substantially larger corpus of known correspondences. The calibration experiments place the practical threshold for useful phonetic inference at approximately N = 10,000 sign tokens — roughly 7,500 beyond the currently available corpus. The results consistently indicate that the principal limiting factor is corpus size rather than script complexity or model architecture. AI methods can already model important aspects of the distributional structure of Linear A sign sequences, but they cannot yet infer reliable phonetic correspondences. The gap, however, is now quantifiable and may narrow as additional inscriptions become available.	el
dc.contributor.master	Πληροφορική	el
dc.subject.keyword	AI	el
dc.subject.keyword	Undeciphered scripts	el
dc.subject.keyword	Computational linguistics	el
dc.subject.keyword	Linear A	el
dc.subject.keyword	Τεχνητή νοημοσύνη	el
dc.subject.keyword	Γραμμική Α	el
dc.date.defense	2026-05-05

Αρχεία σε αυτό το τεκμήριο

Name:
Μέγεθος:: 9.673Mb
Τύπος:: PDF
Description:: Master thesis

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής
Department of Informatics

Εμφάνιση απλής εγγραφής

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού 3.0 Ελλάδα