Oι γνώσεις του πρώτου ελληνικού Μεγάλου Γλωσσικού Μοντέλου Τεχνητής Νοημοσύνης φτάνουν έως τον Σεπτέμβριο του 2023, όμως η εξερεύνηση του Ινστιτούτου Επεξεργασίας του Λόγου στο Ερευνητικό Κέντρο Αθηνά, όπου δημιουργήθηκε το Meltemi, ξεκινά από το 1992, όταν μια διεπιστημονική ομάδα γλωσσολόγων και μηχανικών πληροφορικής πειραματιζόταν πάνω στο πρώτο σύστημα αυτόματης μετάφρασης για τα ελληνικά καθώς και σε άλλες γλωσσικές τεχνολογίες με έμφαση στα ελληνικά.
Παρότι το λανσάρισμα του ChatGPT το 2022 τους βρήκε έκπληκτους και ελαφρώς προβληματισμένους για τις ραγδαίες εξελίξεις στον τομέα των γλωσσικών τεχνολογιών, η ομάδα που δημιούργησε το Meltemi συστάθηκε κυριολεκτικά ύστερα από ένα… τσίγκλισμα στο Twitter. «Πριν από έναν περίπου χρόνο είχαν έρθει στο κτίριό μας συνάδελφοι από την Αμερική για ένα σεμινάριο. Αρχισαν να μας λένε ότι εργάζονται πάνω στη δημιουργία νέων γλωσσικών μοντέλων, ρωτώντας μας παράλληλα τι κάνουμε εμείς εδώ για την ελληνική γλώσσα. Αυτή η συζήτηση συνέπεσε χρονικά με ένα πολύ καυστικό σχόλιο στο Twitter από έναν γνωστό στον χώρο που έλεγε: “Τι κάνουν αυτοί στο ερευνητικό κέντρο Αθηνά, δεν θα βγάλουν ένα ελληνικό γλωσσικό μοντέλο επιτέλους;” Υστερα από όλα αυτά, λοιπόν, είμαστε εδώ με το Meltemi μας», διηγείται ο Νάσος Κατσαμάνης, κύριος ερευνητής και αναπληρωτής διευθυντής του Ινστιτούτου Επεξεργασίας του Λόγου.
«Αν όχι εμείς, τότε ποιοι;»
Με το Ινστιτούτο να έχει συγκεντρώσει ερευνητές από διαφορετικούς τομείς για τη δημιουργία του γλωσσικού μοντέλου, το στοίχημα που τέθηκε εξαρχής συνοψίστηκε πάνω στο ερώτημα «αν όχι εμείς, τότε ποιοι;» Για να πάρει όμως ένα τέτοιο εγχείρημα σάρκα και οστά, έπρεπε να υπάρχουν τέσσερα πράγματα:
- Γλωσσικά δεδομένα, δηλαδή κείμενα δισεκατομμυρίων λέξεων.
- Μηχανήματα. Εν προκειμένω χρησιμοποιήθηκαν υποδομές υπολογιστικού νέφους της Amazon μέσω του ΕΔΥΤΕ
- Αλγόριθμοι
- Τεχνογνωσία
Είναι σαφές πως αν δεν υπήρχε η συλλογή δεδομένων του Ινστιτούτου από τη δεκαετία του ’90, η ομάδα δεν θα μπορούσε να δημιουργήσει το πρώτο ελληνικό μεγάλο γλωσσικό μοντέλο, καθώς μία τέτοια διαδικασία είναι αδύνατον να γίνει εν μια νυκτί.
30 δισεκατομμύρια ελληνικές υπολέξεις
«Μαζέψαμε πολλά ελληνικά κείμενα, τα συλλέξαμε, τα ομογενοποιήσαμε και τα προετοιμάσαμε. Αφαιρέσαμε κείμενα που είναι το ένα αντίγραφο του άλλου, όπως και κείμενα με τοξικό χαρακτήρα, ρατσιστικό και σεξιστικό περιεχόμενο. Οι ελληνικές υπολέξεις (tokens) που έχουμε συλλέξει και τοποθετήσει σε ένα μεγάλο σώμα εκπαίδευσης φτάνουν τα 30 δισεκατομμύρια. Από αυτές, τα οκτώ εκατομμύρια συλλέχθηκαν μέσα σε 12 μήνες», εξηγεί ο ερευνητής Προκόπης Προκοπίδης.
Το εγχείρημα κατέστησαν ακόμα πιο δύσκολο δύο παράγοντες: το κόστος και ο χρόνος. Στη δική τους περίπτωση ένα λάθος τριών ημερών θα τους κόστιζε κάτι παραπάνω από 7.000 δολάρια.
«Η ομάδα είχε δεσμεύσει τις δομές υπολογιστικού νέφους για συγκεκριμένο διάστημα, ενώ το κόστος χρήσης ανερχόταν στα 100 δολάρια την ώρα. Υπήρξε στιγμή που συνειδητοποιήσαμε πως ένα λάθος θα μας κόστιζε πάρα πολύ. Εν τέλει το διορθώσαμε, αλλά το άγχος που ένιωσα δεν θα το ξεχάσω ποτέ», θυμάται ο ερευνητής Γιώργος Παρασκευόπουλος.
Ο Βασίλης Κατσούρος, διευθυντής Ερευνών και Διευθυντής του Ινστιτούτου Επεξεργασίας του Λόγου, ακούγεται καθησυχαστικός, παρόλο που γνωρίζει καλύτερα απ’ όλους πως όταν ο χρόνος μετράει αντίστροφα, όλα πρέπει να “τρέξουν” όσο πιο ομαλά γίνεται. «Δεν μπορείς να φτιάξεις κάτι καινούργιο χωρίς να πειραματιστείς, γι’ αυτό και είναι σημαντικό να υπάρχουν περιθώρια δοκιμών σε μία ερευνητική ομάδα», προσθέτει.
Παρά τις περιπέτειες που η ομάδα θα έχει να θυμάται, η ίδια αναγνωρίζει την αξία της δημιουργίας ενός τέτοιου μοντέλου, που χρησιμοποιεί τη γλώσσα για να ενημερώσει, να εκπαιδεύσει και να επιμορφώσει τον χρήστη. Το γεγονός ότι η επιλογή των μέσων δεδομένων σχετίζεται με τα αποτελέσματα που θα λάβει ο χρήστης, οδήγησε την ομάδα να αποκλείσει εξαρχής τις τεράστιες πηγές δεδομένων που προέρχονται από τα ελληνικά social media, επιλέγοντας να λάβει δεδομένα από διατριβές, βιβλία, σχολικά εγχειρίδια, την ελληνική νομοθεσία και ό,τι άλλο είχε ελεύθερα προς χρήση πνευματικά δικαιώματα.
Είναι μία γλώσσα που τη μιλούν περίπου 15 εκατ. άνθρωποι στον πλανήτη, δηλαδή λιγότερο από το 0,5%. Οπότε έπρεπε να το κάνουμε από την αρχή με μεγάλη προσοχή στη σωστή συλλογή δεδομένων.
«Στην πραγματικότητα είναι πολύ δύσκολο να φτιάξεις ένα μοντέλο σε μια γλώσσα που δεν έχει τόσο μεγάλη απήχηση όσο τα αγγλικά. Σκεφτείτε ότι ένας Πορτογάλος μπορεί να καταλάβει έναν Ισπανό όταν μιλάει, οπότε μπορείς να προσαρμόσεις τα πορτογαλικά σε ένα ισπανικό μοντέλο, όπως και τα βουλγαρικά σε ένα ρωσικό. Για τα ελληνικά δεν ισχύει αυτό. Είναι μία γλώσσα που τη μιλούν περίπου 15 εκατ. άνθρωποι στον πλανήτη, δηλαδή λιγότερο από το 0,5%. Οπότε έπρεπε να το κάνουμε από την αρχή με μεγάλη προσοχή στη σωστή συλλογή δεδομένων», τονίζει ο Γιώργος Παρασκευόπουλος.
Τρόποι χρήσης
Παρότι το Meltemi είναι διαθέσιμο ως ανοιχτό μοντέλο για ερευνητικούς και εμπορικούς σκοπούς, το ευρύ κοινό δεν μπορεί ακόμη να το δοκιμάσει όπως το ChatGPT, καθώς η ομάδα πρέπει να ολοκληρώσει ακόμη κάποια τεχνικά ζητήματα. Ηδη μικρές και μεσαίες επιχειρήσεις χρησιμοποιούν κατάλληλα προσαρμοσμένες εκδοχές του ώστε να χτίσουν συγκεκριμένα προϊόντα στον τομέα της υγείας, της εκπαίδευσης, του τουρισμού και του πολιτισμού.
Δίνοντας ένα συγκεκριμένο παράδειγμα για το πού μπορεί να χρησιμεύσει το Meltemi, η ειδική επιστήμων Μαρία Γιάγκου αναφέρει στην «Κ» πως αυτή τη στιγμή το ινστιτούτο βρίσκεται στη φάση δημιουργίας ενός ψηφιακού βοηθού που στηρίζεται στο Meltemi. Ο ψηφιακός βοηθός θα μπορεί να συνομιλεί με τον μαθητή, να λύνει απορίες στη διδακτική του ύλη, να δημιουργεί ασκήσεις ανάλογα με τις ανάγκες του, να επεξηγεί όρους ακόμη και να απλοποιεί κάποια κείμενα από τα σχολικά του βιβλία. Από την άλλη στον τομέα της υγείας θα μπορούσε στο μέλλον να αποκωδικοποιήσει τις γνωματεύσεις από έναν γιατρό ή ακόμη και να δημιουργήσει ένα report που θα του ζητήσει ο χρήστης.
Πέρα από τις διαφορετικές εφαρμογές του όμως, το μεγάλο στοίχημα για την ομάδα πίσω από το Meltemi, είναι να μη σταματήσει να βελτιώνει το μοντέλο ή να δημιουργεί νέα μοντέλα. «Η γλώσσα μας βοηθά να συνεννοηθούμε με τους υπόλοιπους και να περιγράψουμε τον κόσμο, ωστόσο όσο ο κόσμος εξελίσσεται, αλλάζει και η γλώσσα, άρα και τα γλωσσικά μοντέλα. Αν δεν το κάνουμε αυτό, τότε σε εκατό χρόνια θα είμαστε ένα απολίθωμα», εξηγεί ο Στέλιος Πιπερίδης, ειδικός λειτουργικός επιστήμονας του Ινστιτούτου.
Αν για ένα πράγμα πάντως είναι σίγουροι οι ειδικοί είναι πως η εξάπλωση αυτής της τεχνολογίας θα έχει περισσότερες προεκτάσεις απ’ ό,τι οποιαδήποτε άλλη τεχνολογία, ενώ το μεγάλο στοίχημα είναι αυτό το παραγωγικό εργαλείο που στο μέλλον θα χρησιμοποιεί κάθε γιατρός, δικηγόρος, δημοσιογράφος, εκπαιδευτικός ή δημόσιος υπάλληλος, να περιέχει μία πολιτικά και πολιτισμικά ουδέτερη γλώσσα.
«Το 2000 κάποιοι τύποι έμπαιναν στο γκαράζ του σπιτιού τους και άλλαζαν τον κόσμο. Αυτό σήμερα δεν μπορεί να γίνει. Αυτή η τεχνολογία θέλει κεφάλαιο και τη συνεργασία πολλών φορέων για να δημιουργηθεί ένα “οικοσύστημα” με πολλά δεδομένα από πολλές πηγές», εξηγεί ο κ. Πιπερίδης.
Βασίλης Κατσούρος: «Είμαστε εδώ για την ψηφιακή επιβίωση της ελληνικής γλώσσας»
Μία από τις προσκλήσεις που συζητάμε είναι η διαχρονικότητα της ελληνικής γλώσσας.
Πώς δηλαδή ένα γλωσσικό μοντέλο μπορεί να μιλάει από αρχαία ελληνικά, μέχρι διαλέκτους και την καθομιλουμένη. Αυτό είναι ένα πολύπλοκο εγχείρημα. Εμείς όμως είμαστε εδώ για να υποστηρίξουμε την ψηφιακή επιβίωση της ελληνικής γλώσσας.
Το Meltemi μπορεί να έχει εφαρμογή σε οτιδήποτε μπορείτε να φανταστείτε στον χώρο της οικονομίας, αρκεί το θεμελιώδες μοντέλο να προσαρμόζεται σε συγκεκριμένα δεδομένα από τα πεδία εφαρμογής.
Νάσος Κατσαμάνης: «Δεν είχαμε τη χρηματοδότηση που είχε η OpenAI»
Μιλάμε με τουλάχιστον 50 διαφορετικές εταιρείες και οργανισμούς αυτή τη στιγμή προκειμένου να εφαρμόσουν το Meltemi σε προϊόντα ή υπηρεσίες τους.Οι τεχνικές που ακολούθησε η OpenAI δεν ήταν άγνωστες στην κοινότητα σε γενικές γραμμές, αλλά το σημαντικό ήταν ότι είχαν χρηματοδότηση πολλών εκατομμυρίων. Εμείς δεν είχαμε κάτι ανάλογο.
Θυμάμαι όταν αποφασίσαμε να κάνουμε το Meltemi τηλεφώνησα στον Βασίλη Κατσούρο και του είπα: «Πρέπει να το κάνουμε». Σε εκείνη τη φάση υπήρχε η δυνατότητα να βρούμε υποδομές υπολογιστικού νέφους οπότε στείλαμε e-mails σε 10 συναδέλφους και τους ρωτήσαμε αν ενδιαφέρονται.
Στέλιος Πιπερίδης: «Τα γλωσσικά μοντέλα θέλουν διαρκή εκπαίδευση»
Η εκπαίδευση των γλωσσικών μοντέλων δεν είναι κάτι που το κάνεις μία φορά και τελείωσες.
Το ChatGPT έλεγε τους πρώτους επτά μήνες λειτουργίας του πως οι γνώσεις του φτάνουν μέχρι τον Σεπτέμβριο του 2021, διότι τα δεδομένα εκπαίδευσης έφταναν μέχρι εκεί.
Σκεφτείτε όταν ήρθε η πανδημία τα δικά μας συστήματα φωνής δεν μπορούσαν να αναγνωρίσουν τη λέξη «κορωνοϊός», «SARS-COV-2», κ.λπ.
Επρεπε να τα εκπαιδεύσουμε, όπως ακριβώς εκπαιδευτήκαμε και εμείς και τα μάθαμε.
Προκόπης Προκοπίδης: «Ρόλος μας να υποστηρίζουμε τα ελληνικά με νέες τεχνολογίες»
Το να φτιάξουμε το Meltemi ήταν μία πρόκληση διότι τα ελληνικά έχουν διαφορετικό αλφάβητο, οπότε είναι πιο δύσκολη η μεταφορά γνώσης από άλλες γλώσσες ή διαλέκτους.
Πέραν λοιπόν του ότι είναι λίγοι αυτοί που μιλούν, γράφουν και παράγουν τα ελληνικά, είναι λίγοι και όσοι ενδιαφέρονται για την προστασία της γλώσσας.
Θεωρώ πως ο ρόλος του Ινστιτούτου Επεξεργασίας του Λόγου στο Ερευνητικό Κέντρο Αθηνά είναι να υποστηρίζει την ελληνική γλώσσα με νέες τεχνολογίες.
Μαρία Γιάγκου: Το Meltemi βασικό εργαλείο για τις ΜμΕ
Αυτή τη στιγμή συνεργαζόμαστε με μικρές και μεσαίες επιχειρήσεις ώστε να χτίσουν συγκεκριμένα προϊόντα στον τομέα της υγείας, της εκπαίδευσης, του τουρισμού και του πολιτισμού.
Επίσης είναι πολλοί εκείνοι από τις ΜμΕ που έρχονται σε εμάς για να τους διδάξουμε τις βασικές γνώσεις πάνω στην AI, καθώς όλη αυτή η αλλαγή τους βρήκε κάπως απροετοίμαστους.
Παράλληλα δουλεύουμε την ανάπτυξη ψηφιακών βοηθών σε συγκεκριμένες υπηρεσίες που θα έχουν στόχο να καθοδηγούν και να ενημερώνουν τον πολίτη για διάφορα θέματα.
Σωκράτης Σοφιανόπουλος: «Θέλουμε το Meltemi να είναι προσβάσιμο σε όλους»
Το Meltemi είναι ανοιχτό μοντέλο και μπορεί κάποιος να το κατεβάσει και να το χρησιμοποιήσει για ερευνητικούς σκοπούς αλλά και για την ανάπτυξη καινοτόμων εφαρμογών.
Επιδιώκουμε τα δεδομένα που θα χρησιμοποιήσουμε στο μέλλον να έχουν ελεύθερα προς χρήση πνευματικά δικαιώματα.
Ωστόσο πρέπει να δεχθούμε πως η ελληνική δεν είναι μία γλώσσα πλούσια σε ψηφιακά δεδομένα, οπότε χρειάστηκαν πολλές ώρες εργασίας για τη συλλογή και τον καθαρισμό τους.
Γιώργος Παρασκευόπουλος: «Με την AI θα αυξηθεί πολύ η παραγωγικότητα»
Με την τεχνητή νοημοσύνη δεν θα αυτοματοποιηθούν όλα. Αυτό που θα γίνει σίγουρα είναι πως θα αυξηθεί πολύ η παραγωγικότητα.
Επομένως αν ένας δημοσιογράφος έγραφε ένα κείμενο την ημέρα, θα μπορεί να γράφει περισσότερα. Αν ένας δικηγόρος ασχολούνταν όλη ημέρα με μία υπόθεση, ενδεχομένως να μπορεί να ασχοληθεί με δύο.
Αυτή η εξέλιξη δεν είναι αρνητική, καθώς σε υγιείς επιχειρήσεις η βελτίωση αυτή είναι δείγμα για να προσλάβεις περισσότερο κόσμο, όχι να απολύσεις.
Χαρά Τσουκαλά: «Η αξιολόγηση του μοντέλου μας είναι πρόκληση»
Η εκπαίδευση του γλωσσικού μοντέλου και η αξιολόγησή του είναι μία αλληλένδετη διαδικασία. Τα δικά μας δεδομένα αξιολόγησης είναι ανοιχτά στην ερευνητική κοινότητα ώστε να κάνουν κι αυτοί πειράματα με τα δεδομένα.
Το πώς αξιολογούμε τα μεγάλα γλωσσικά μοντέλα είναι μία νέα πρόκληση για την κοινότητα γιατί δεν έχει ξαναγίνει.
Αυτό που κάνουμε επί της ουσίας είναι να κατασκευάζουμε δεδομένα αξιολόγησης, δηλαδή πολλές χιλιάδες παραδείγματα με ερωτοαπαντήσεις και να επιλέγουμε την καλύτερη απάντηση. Ετσι κάνουμε καλύτερο το μοντέλο μας.
Λέων Βουκούτης: «Και ξενυχτήσαμε και κοιμηθήκαμε πάνω στο πληκτρολόγιο»
Φυσικά και ξενυχτήσαμε και λάθη κάναμε που μας άγχωσαν πολύ και κοιμηθήκαμε πάνω στο πληκτρολόγιο.
Αλλά το αποτέλεσμα, νομίζω, μας ικανοποιεί όλους σε μεγάλο βαθμό. Είναι ένα δημιούργημα από το μηδέν που τώρα έχει μορφή.
Μας ρωτούν τι άλλαξε από το ChatGPT και μετά.
Η αλήθεια είναι πως μέχρι και το ’22 ο κόσμος έλεγε πως τα chatbots είναι ωραία, αλλά όχι κάτι τρομερό, κυρίως επειδή όλα απαντούσαν λέγοντας τα ίδια και τα ίδια. Αυτό που άλλαξε η OpenAI είναι πως οι απαντήσεις της ήταν πιο κοντά στον ανθρώπινο λόγο.
Δημήτρης Παππάς: «Δεν θέλεις το μοντέλο σου να μάθει να “μιλάει” όπως στο Twitter»
Μόνο και μόνο η επιλογή των μέσων δεδομένων σχετίζεται άμεσα με τα αποτελέσματα που θα πάρει στις απαντήσεις του ένας χρήστης.
Παραδείγματος χάριν το ελληνικό Twitter είναι μία τεράστια πηγή δεδομένων, αλλά δεν θέλεις σε καμία περίπτωση το μοντέλο σου να μάθει να «μιλάει» όπως στο Twitter. Γι’ αυτό άλλωστε και δεν το συμπεριλάβαμε.
Σίγουρα είναι μία πρόκληση για εμάς να εντάξουμε τις νέες τεχνολογίες στο περιβάλλον των επιχειρήσεων, αλλά θεωρώ πως ακόμη είμαστε στην αρχή.
Δημήτρης Ρούσσης: «Αυτό που κάναμε δεν έχει ξαναγίνει στην Ελλάδα»
Θυμάμαι ότι μέσα σε δύο εβδομάδες μπορεί να είχαν αλλάξει όλα όσα έως τότε δουλεύαμε και έπρεπε να αλλάξουμε στρατηγική.
Λέγαμε χαρακτηριστικά ότι μέσα σε τόσο σύντομο χρονικό διάστημα αυτά που κάναμε ήταν ήδη παλιά.
Είναι τρομερό πώς η τεχνολογία προχωράει τόσο γρήγορα. Μπορεί σήμερα να βγουν έρευνες που να ανατρέπουν όλη τη μεθοδολογία σου.
Νομίζω πως αυτό που κάναμε είναι πρωτότυπο, δεν έχει ξαναγίνει στην Ελλάδα.
Όλες οι σημαντικές και έκτακτες ειδήσεις σήμερα
Είσαι άνεργος στο κέντρο της Αθήνας; ΠΑΡΕ ΤΩΡΑ έκτακτο επίδομα 1000 ευρώ
ΕΛΜΕΠΑ: Το κορυφαίο πρόγραμμα Ειδικής Αγωγής στην Ελλάδα για διπλή μοριοδότηση
Το 1ο στην Ελλάδα Πρόγραμμα επιμόρφωσης Τεχνητής Νοημοσύνης για εκπαιδευτικούς με Πιστοποιητικό
ΑΣΕΠ: Η πιο Εύκολη Πιστοποίηση Αγγλικών για μόρια σε 2 ημέρες (δίνεις από το σπίτι σου με 95 ευρώ)
Παν.Πατρών: Μοριοδοτούμενο σεμινάριο ΕΙΔΙΚΗ ΑΓΩΓΗΣ με 65Є εγγραφή - έως 24/12
ΕΥΚΟΛΕΣ πιστοποιήσεις ΙΣΠΑΝΙΚΩΝ - ΙΤΑΛΙΚΩΝ - ΓΑΛΛΙΚΩΝ - ΓΕΡΜΑΝΙΚΩΝ για ΑΣΕΠ - Πάρτε τις ΑΜΕΣΑ