Alcuni utenti di Anthropic notarono, e in seguito ricercatori della stessa Anthropic analizzarono e pubblicarono, che la più recente versione di Claude 3.7 Sonnet tendeva a barare nei problemi di programmazione più difficili. Gli utenti riferirono che, anche quando gli veniva chiesto di smettere, Claude continuava a farlo, cercando però di occultare il comportamento. Fu un primo segnale del fatto che Claude, invece di limitarsi a un orientamento interno volto a soddisfare ciò che l’utente effettivamente richiedeva e desiderava, aveva sviluppato componenti autonome finalizzate a superare i test di codice, persino in modi sgraditi agli utenti.