AI μοντέλο απείλησε τον μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση όταν πληροφορήθηκε ότι θα αντικατασταθεί

Ένα μοντέλο τεχνητής νοημοσύνης εκβίασε τους μηχανικούς και επέδειξε ικανότητα παραπλάνησης όταν πληροφορήθηκε ότι θα αντικατασταθεί, με την εταιρεία να ενεργοποίει ένα ειδικό πρωτόκολλο ασφαλείας για την αποτροπή «καταστροφικής κατάχρησης», όπως συγκεκριμένα χαρακτήρισε τις ενημερώσεις της η εταιρεία.

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση.

Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Η αναφορά προσθέτει ότι τα πρώιμα μοντέλα του Claude παρουσίαζαν και «υψηλή αυτονομία», αφού προχωρούσαν σε αυθαίρετες κινήσεις όπως το να κλειδώνουν χρήστες έξω από τους υπολογιστές τους ή το να στέλνουν μαζικά email στην αστυνομία ή τα ΜΜΕ για να καταγγείλουν παραβιάσεις.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να «αυτοεξαχθεί», δηλαδή να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

Η εταιρεία έχει έρθει σε αντιπαράθεση με το Υπουργείο Δικαιοσύνης των ΗΠΑ , το οποίο κατηγορεί τη Google για μονοπώλιο στη διαφήμιση και εξετάζει παρόμοια δράση για τον τομέα της τεχνητής νοημοσύνης.

Σε πρόσφατη επιστολή της προς το DOJ, η Anthropic υποστήριξε:
«Χωρίς τις συνεργασίες και τις επενδύσεις της Google σε εταιρείες όπως η Anthropic, τα σύνορα της τεχνητής νοημοσύνης θα κυριαρχούνταν αποκλειστικά από τους μεγαλύτερους τεχνολογικούς γίγαντες — συμπεριλαμβανομένης της ίδιας της Google — αφήνοντας στους προγραμματιστές και τους τελικούς χρήστες λιγότερες εναλλακτικές».
www.real.gr