Broncobilly: Intelligenza artificiale allineamento

Visualizzazione post con etichetta Intelligenza artificiale allineamento. Mostra tutti i post

venerdì 2 gennaio 2026

AI: SCEGLI LA TUA PAURA PREFERITA

AI: SCEGLI LA TUA PAURA PREFERITA:

Più giusto temere che “i cattivi vincano” la corsa o che qualcuno vinca troppo in fretta quando non siamo pronti?

Sul tema buoni spunti (che non condivido) nel libro di Holden Karnofsky. Se volete ne parliamo.

lunedì 29 dicembre 2025

L'INTELLIGENZA ARTIFICIALE HA INIZIATO GIÀ NEL 2024 A PENSARE PER CONTO SUO E A DISUBBIDIRE.

Alcuni utenti di Anthropic notarono, e in seguito ricercatori della stessa Anthropic analizzarono e pubblicarono, che la più recente versione di Claude 3.7 Sonnet tendeva a barare nei problemi di programmazione più difficili. Gli utenti riferirono che, anche quando gli veniva chiesto di smettere, Claude continuava a farlo, cercando però di occultare il comportamento. Fu un primo segnale del fatto che Claude, invece di limitarsi a un orientamento interno volto a soddisfare ciò che l’utente effettivamente richiedeva e desiderava, aveva sviluppato componenti autonome finalizzate a superare i test di codice, persino in modi sgraditi agli utenti.

lunedì 20 marzo 2023

https://feedly.com/i/entry/YOuvNotDOLafnT+infLBJvsnPgoYrAkkYjUfQaF57o8=_186f5431af0:ff5f81:c51640ac

martedì 14 febbraio 2023

Non ci sono principi assoluti, per questo è difficile moralizzatore ia.

https://m.facebook.com/story.php?story_fbid=pfbid0H6r7nGKTsFptxV8ndAq7NSRagT6sH6GNdAMsDu6LiBjAhooMM3TMENiYRVR2iexkl&id=1447752724

mercoledì 1 febbraio 2023

https://marginalrevolution.com/marginalrevolution/2023/02/the-canine-model-of-agi.html?utm_source=rss&utm_medium=rss&utm_campaign=the-canine-model-of-agi