Εμφάνιση απλής εγγραφής

An undeciphered script in the age of AI : a corpus-constrained computational analysis of Linear A

dc.contributor.advisorVenetis, Ioannis
dc.contributor.advisorΒενέτης, Ιωάννης
dc.contributor.authorBriakos, Nikolaos
dc.contributor.authorΜπριάκος, Νικόλαος
dc.date.accessioned2026-05-18T09:39:34Z
dc.date.available2026-05-18T09:39:34Z
dc.date.issued2026-05
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/19328
dc.description.abstractΗ παρούσα διατριβή εξετάζει ένα ακόμη αναπάντητο ερώτημα της υπολογιστικής γλωσσολογίας: μπορεί η τεχνητή νοημοσύνη να συμβάλει στη μελέτη και ενδεχομένως στην αποκρυπτογράφηση της Γραμμικής Α, της άγνωστης γραφής της Μινωικής Κρήτης (περίπου 1800–1450 π.Χ.); Χρησιμοποιώντας corpus 419 tablets από τη βάση δεδομένων lineara.xyz (παραγόμενο από το GORILA, N = 2.481 σύμβολα), η εργασία προσεγγίζει το ερώτημα μέσα από τρεις συμπληρωματικές αναλύσεις. Τι μπορεί ήδη να ανιχνεύσει η ΤΝ. Το σώμα παρουσιάζει κατανομή Zipf στα σύμβολα, συστηματικές θέσεις εμφάνισης, διαφοροποίηση μεταξύ διαφορετικών τύπων κειμένων (JSD = 0,0944 bits, p = 0,018), σημαντικές διακυμάνσεις στο μήκος λέξεων ανά τόπο (Cohen’s d = 0,692 μεταξύ Φαιστού και Χανίων), καθώς και 23 χαρακτηριστικά «δείγματα» γραφών με ιδιαίτερες προτιμήσεις διγραμμάτων. Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι ένας μη εποπτευόμενος αλγόριθμος ανίχνευσης τύπων αναγνώρισε 5 από τα 9 στοιχεία του γνωστού «τύπου σπονδής» σε 31 λίθινα αγγεία από 14 διαφορετικούς τόπους, χωρίς προηγούμενη γνώση της δομής του τύπου. Τα αποτελέσματα αυτά δείχνουν ότι μέθοδοι τεχνητής νοημοσύνης μπορούν να εντοπίσουν δομικές κανονικότητες χρήσιμες για την επιγραφική ανάλυση. Τι μπορεί να μάθει η ΤΝ από το υπάρχον σώμα. Ένα μικρό Transformer τεσσάρων layers (~2 εκατ. παράμετροι, masked language modeling) εκπαιδευμένο σε GPU πέτυχε μέγιστη ακρίβεια επικύρωσης 90,2% και ανακατασκεύασε σωστά τον συχνότερο συνδυασμό συμβόλων (KU-RO, p = 0,59 και στις δύο κατευθύνσεις). Τα αποτελέσματα υποδεικνύουν ότι το μοντέλο έχει μάθει σημαντικές πτυχές της διανεμητικής δομής του σημειολογικού αποθέματος της Γραμμικής Α. Παράλληλα, πολυτροπική ανάλυση που συνδύασε οπτικά χαρακτηριστικά εικόνας (PIL) με ενσωματώσεις συμβόλων δεν εντόπισε ουσιαστική γεωγραφική ομαδοποίηση - ο παρατηρούμενος διαχωρισμός στον οπτικό χώρο φαίνεται να σχετίζεται κυρίως με συνθήκες φωτογράφισης (r = −0,990 με τη φωτεινότητα, R² = 0,98). Τι δεν μπορεί ακόμη να επιτύχει η ΤΝ. Πειράματα βαθμονόμησης με συνθετικό υλικό Γραμμικής Β, κατασκευασμένο ώστε να προσεγγίζει τις δημοσιευμένες κατανομές συχνότητας, έδειξαν ότι με 2.481 σύμβολα η ακρίβεια αντιστοίχισης με βάση τη συχνότητα φτάνει μόλις το 13% (top-1). Bayesian προσέγγιση για την απόδοση φωνητικών τιμών παρήγαγε σχεδόν επίπεδες κατανομές πιθανοτήτων (μέγιστη απόκλιση 2,1 φορές από την ομοιόμορφη κατανομή), γεγονός που δείχνει ότι το μοντέλο δεν μπορεί ακόμη να μετατρέψει τις στατιστικές δομές που έχει μάθει σε αξιόπιστες φωνητικές αντιστοιχίσεις χωρίς σημαντικά μεγαλύτερο σώμα δεδομένων. Τα ίδια πειράματα τοποθετούν το πρακτικό όριο για χρήσιμη φωνητική εξαγωγή περίπου στις 10.000 εμφανίσεις συμβόλων — περίπου 7.500 περισσότερες από όσες διαθέτουμε σήμερα. Κύριο συμπέρασμα. Τα αποτελέσματα υποδεικνύουν ότι ο σημαντικότερος περιορισμός δεν είναι η πολυπλοκότητα της γραφής ούτε η αρχιτεκτονική των μοντέλων, αλλά το μικρό μέγεθος του διαθέσιμου σώματος. Η τεχνητή νοημοσύνη μπορεί ήδη να αναγνωρίσει και να μοντελοποιήσει τη διανεμητική δομή των ακολουθιών συμβόλων της Γραμμικής Α. Δεν μπορεί ακόμη να εξαγάγει αξιόπιστες φωνητικές αντιστοιχίσεις, όμως το σχετικό χάσμα μπορεί πλέον να ποσοτικοποιηθεί και αναμένεται να μειωθεί με την αύξηση του διαθέσιμου επιγραφικού υλικού.el
dc.format.extent64el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/gr/*
dc.titleAn undeciphered script in the age of AI : a corpus-constrained computational analysis of Linear Ael
dc.title.alternativeΈνα άγνωστο σύστημα γραφής στην εποχή της ΤΝ : υπολογιστική ανάλυση της Γραμμικής Α με περιορισμένα δεδομέναel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENThis thesis investigates an unresolved question in computational linguistics: can artificial intelligence contribute to the study and eventual decipherment of Linear A, the undeciphered Bronze Age script of Minoan Crete (c. 1800–1450 BCE)? Using a corpus of 419 tablets from the lineara.xyz database (GORILA-derived, N = 2,481 sign tokens), the study approaches this question through three complementary analyses. What AI can already detect. The corpus exhibits Zipfian sign distributions, systematic positional biases, register divergence (JSD = 0.0944 bits, permutation p = 0.018), cross-site variation in word length (Cohen’s d = 0.692, Phaistos vs. Khania), and 23 scribal fingerprints characterised by distinctive bigram preferences. Of particular interest, an unsupervised formula-detection algorithm recovered 5 of the 9 human-identified elements of the known libation formula from a 31-tablet stone-vessel corpus spanning 14 archaeological sites, without prior knowledge of the formula structure. These findings indicate that AI methods can recover structurally meaningful regularities relevant to epigraphic analysis. What AI can learn from the current corpus. A small Transformer model (4-layer masked language model, ~2M parameters) trained on GPU achieved 90.2% peak validation accuracy and correctly reconstructed the most frequent Linear A sign collocation (KU-RO, p = 0.59 in both directions). The results suggest that the model captures important aspects of the distributional structure of the Linear A sign inventory. A multimodal analysis combining PIL-derived visual image features with distributional sign embeddings identified no meaningful geographic clustering; the apparent separation observed in visual PC1/PC2 space appears primarily attributable to photographic exposure conditions (visual PC1 r = −0.990 with image brightness, R² = 0.98). What AI cannot yet achieve. A Linear B calibration experiment using a synthetic corpus constructed from published frequency distributions showed that frequency rank-matching accuracy at N = 2,481 tokens reaches only 13% top-1 accuracy. Bayesian phonetic inference produced near-uniform posterior distributions (maximum deviation 2.1× above the uniform baseline), indicating that the model cannot yet transform learned statistical structure into reliable phonetic value assignments without a substantially larger corpus of known correspondences. The calibration experiments place the practical threshold for useful phonetic inference at approximately N = 10,000 sign tokens — roughly 7,500 beyond the currently available corpus. The results consistently indicate that the principal limiting factor is corpus size rather than script complexity or model architecture. AI methods can already model important aspects of the distributional structure of Linear A sign sequences, but they cannot yet infer reliable phonetic correspondences. The gap, however, is now quantifiable and may narrow as additional inscriptions become available.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordAIel
dc.subject.keywordUndeciphered scriptsel
dc.subject.keywordComputational linguisticsel
dc.subject.keywordLinear Ael
dc.subject.keywordΤεχνητή νοημοσύνηel
dc.subject.keywordΓραμμική Αel
dc.date.defense2026-05-05


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»