Broncobilly: statistica e trucchi

Visualizzazione post con etichetta statistica e trucchi. Mostra tutti i post

lunedì 23 settembre 2024

la probabilità è ovunque

Onnipresenza della probabilità -

Quando applichi il tuo modello alla realtà il tuo gradi certezza dipende da 1) la probabilità stimata dal tuo modello (prob.interna) e 2) la probailità che il tuo modello sia vero (prob.esterna). Per questo è forzato distiguere tra spiegazioni deduttive e speigazioni abduttive considerando le prime certe e le seconde probabilistiche. La probabilità è ovunque. Se le deduzioni eliminano la prob. interna non eliminano quella esterna.

https://benthams.substack.com/p/do-deductive-arguments-for-god-establish

La lezione di cui sopra serve anche per leggere gli studi che usano l'espressione "statisticamente significativo" (che sono quasi tutti). Ti dicono che negare l'esistenza di un collegamento tra le variabili studiate ha una probabilità inferiore al 5% ma lo si dice senza tener conto della probabilità "esterna". Se ne tieni conto quel 5% potrebbe anche trasformarsi nel 50%!

martedì 3 marzo 2020

NUMERI CHE PUZZANO hl The Scent of Bad Psychology

NUMERI CHE PUZZANO

Molti studi scientifici, specie quelli prodotti nelle facoltà di psicologia, nascondono qualcosa di marcio. Tanto è vero che ogni volta che li ripeti danno risultati diversi.

La nostra fortuna è che, poiché nascondono qualcosa di marcio, puzzano; la buona notizia quindi è che è facile smascherarli.

Ecco 4 (cattivi) odori caratteristici.

1) Poiché l'errore tollerato non deve di solito superare il 5%, cio' significa che la montagna di studi con errori tra il 4.5 e 5% puzza tremendamente: l'autore li ha taroccati per renderli pubblicabili. Ma guardiamo al bicchiere mezzo pieno: gli studi con errori tra il 5.1 e il 6% sono probabilmente veri, o comunque prodotti da ricercatori onesti: sarebbe stato facilissimo taroccarli e pubblicare.

2) Se leggete l'abstract alla nonna di Taleb e lei reagisce con un "ma che cazzo dici??!!", allora lo studio è falso. Gli studi veri in genere non fanno che replicare la saggezza dei vecchi.

3) Se lo studio vale per le donne messicane, single tra i 45 e i 55 anni, allora è falso. Vuol dire che si è provato con tutti e si è trovato solo loro.

4) Gli studi "sexy" sono falsi. Per essere vero uno studio deve essere noioso e piuttosto banale. Se uno studio vi spiega come essere un buon genitore, oppure come migliorare il rendimento dei vostri studenti, oppure come rafforzare la volontà, oppure come far durare il vostro matrimonio è falso... Tutti gli studi che ci sarebbero molto utili puzzano tremendamente.

L'immagine può contenere: 1 persona, testo

aaaaaaaaaaaaaaaaaaaaaa

The Scent of Bad Psychology

putanumonit.com

Citation (APA): putanumonit.com. (2020). The Scent of Bad Psychology [Kindle Android version]. Retrieved from Amazon.com

Parte introduttiva

Evidenzia (giallo) - Posizione 2

The Scent of Bad Psychology putanumonit.com

Nota - Posizione 3

@@@@@ Come giudicare uno studio. 1. 0.049 é falso. 0.06 é onesto 2. Fatelo giudicare alla nonna di Taleb. 3. Per tentativi. Hai l impressione che si é provato di tutto pur di trovare qlcs? Allora é così 4. Se é troppo figo é falso. Regola del silicone

Evidenzia (giallo) - Posizione 5

Bad news: The replication crisis in psychology replicated.

Nota - Posizione 6

Su 21 ne sopravvivono 13

Evidenzia (giallo) - Posizione 8

A prediction market where research peers could bet on which results would replicate identified almost of them

Evidenzia (giallo) - Posizione 12

Rob Wiblin of 80,000 Hours put together a quiz that offers descriptions of the 21 studies and lets you guess if their main finding replicated or not.

Evidenzia (giallo) - Posizione 15

The stench of bad research is difficult to hide,

Evidenzia (giallo) - Posizione 18

Rule 1: The Rule of Anti-Significance.

Nota - Posizione 18

Tttttt

Evidenzia (giallo) - Posizione 18

If a study has p = 0.049 it is fake.

Evidenzia (giallo) - Posizione 25

A result with a p-value just above 0.05 could well be true. A result with a p-value just below 0.05 is almost certainly false.

Nota - Posizione 27

Jacob rule

Evidenzia (giallo) - Posizione 35

More importantly, p = 0.06 means that the researchers are honest. They could have easily p-hacked the results below 0.05 but chose not to. The opposite is true when p = 0.049.

Evidenzia (giallo) - Posizione 43

“the study was p-hacked by bad researchers”

Nota - Posizione 43

0.04

Evidenzia (giallo) - Posizione 46

2: The Rule of Taleb’s Grandma

Evidenzia (giallo) - Posizione 46

If the purported effect sounds implausible, it is.

Nota - Posizione 47

Introspezione

Evidenzia (giallo) - Posizione 48

replicate any psychological study inside your own head with N = 1.

Evidenzia (giallo) - Posizione 49

prefer watching TV for 12 minutes to being alone with their thoughts for 12 minutes.”

Nota - Posizione 50

Esempio di studio vero

Evidenzia (giallo) - Posizione 52

you imagine eating an M& M 30 times, immediately afterward you will eat fewer M& Ms from a bowl.”

Nota - Posizione 52

Altro studio vero

Evidenzia (giallo) - Posizione 58

your hands makes you less likely to want to justify your decision of how you ranked music albums, but just thinking about soap doesn’t.”

Nota - Posizione 59

Introspezione con N=1. Non vero

Evidenzia (giallo) - Posizione 62

Taleb’s Grandma: What the fuck are you talking about?

Nota - Posizione 62

La reazione

Evidenzia (giallo) - Posizione 80

Rule 2b: we should all be embarrassed that we believed in priming even for a second.

Nota - Posizione 82

Addendo.

Evidenzia (giallo) - Posizione 82

Rule 3: The Rule of Multiplicity

Nota - Posizione 82

Ttttttt

Evidenzia (giallo) - Posizione 82

If the study looks like it tried 20 different things to get a p-value,

Evidenzia (giallo) - Posizione 85

a study that tries several hypotheses and doesn’t correct for multiplicity isn’t worth the pixels

Evidenzia (giallo) - Posizione 88

When holding and writing on a heavier clipboard, people assessing job applicants rate them as ‘better overall’, and ‘more seriously interested in the position’.

Nota - Posizione 90

Studio falso...la congiunzione e

Evidenzia (giallo) - Posizione 91

I could just imagine the researchers trying 27 clipboards of different materials,

Evidenzia (giallo) - Posizione 96

The first sign that you’re about to be fed bullshit is an abstract full of 4-syllable words where 2-syllable words would do.

Nota - Posizione 97

Tra l altro

Evidenzia (giallo) - Posizione 99

Priming is really like the Kaballah,

Evidenzia (giallo) - Posizione 110

breaking your group into arbitrary categories (by gender, age, race, astrological sign…)

Nota - Posizione 111

Il trucco x moltiplicare le ipotesi e trovarne una buona

Evidenzia (giallo) - Posizione 111

This is the “elderly Hispanic woman effect”.

Evidenzia (giallo) - Posizione 119

when a hypothesis failed to yield a p-value below 0.05, they tried more and more things until something publishable popped

Evidenzia (giallo) - Posizione 123

4: The Rule of Silicone Boobs

Nota - Posizione 123

Ttttttttt

Evidenzia (giallo) - Posizione 123

If it’s sexy, it’s probably fake.

Evidenzia (giallo) - Posizione 124

“Sexy” means “likely to get published in the New York Times

Evidenzia (giallo) - Posizione 126

inconvenient results like that rich and high-status men in their forties and skinny women in their early twenties tend to find each other very sexy.

Nota - Posizione 127

Vero perché deprimente

Evidenzia (giallo) - Posizione 132

in a condition that simulated the stress of being poor did worse on an attention task than those who simulated the ease of being rich.”

Nota - Posizione 133

Muy sexy. Possiamo intervenire x il bene dell uomo!!!!...Falso

Evidenzia (giallo) - Posizione 136

Anything counterintuitive is also sexy,

Evidenzia (giallo) - Posizione 138

Finding robust results is very hard, but getting sexy results published is very easy.

Evidenzia (giallo) - Posizione 141

Reasons for Optimism

Nota - Posizione 141

Tttttttttt

Evidenzia (giallo) - Posizione 145

Anything published in 2015 or earlier is part of the “too big to fail” era, it’s potentially a junk bond

Nota - Posizione 145

Pessimismo di Gelman...parliamo di psico.

Evidenzia (giallo) - Posizione 147

The replication crisis in psychology is not a new phenomenon.

Nota - Posizione 148

E dopo il 2015?

Evidenzia (giallo) - Posizione 152

The standards of the field were such that they could get away with criminal methodology.

Nota - Posizione 153

Ipotesi di continuitá

Evidenzia (giallo) - Posizione 155

But it’s harder to get away with bullshit studies if everybody knows how to spot them and everybody knows that everybody knows.

Nota - Posizione 156

Motfivi di speranza

lunedì 1 luglio 2019

UNO STUDIO DICE CHE…

UNO STUDIO DICE CHE…

Le statistiche sono importanti! Oggi più che mai. Quando un politico serio ci dice che A e B sono collegate e che quindi agire su A ci consente di influenzare B, ce lo dice sulla base di studi statistici rigorosi.

Ma noi profani non capiamo le statistiche, tendiamo a confondere due cose che sono completamente diverse:

A: la probabilità che il test statistico possa sbagliare.

B: la probabilità che il test statistico sia sbagliato.

Distinguere è cruciale: in genere, infatti, i test statistici che ci propongono sono strumenti quasi infallibili che quasi certamente sbagliano. 

Vi gira la testa? Anche a me. Ecco, ci gira perché confondiamo di continuo A con B. Persino se conosciamo il nostro punto debole cadiamo nella trappola.

Mi spiego con un esempio. Ammettiamo che su 10.000 geni ce ne sia uno che causi la schizofrenia. Sottoponiamo i geni ad un test statistico quasi infallibile (1% di errore). Il test ci dirà che esistono 100 geni che causano la schizofrenia (tra cui quello che la causa realmente). Se di quei geni selezionati ne prendo uno a caso la probabilità che causi la schizofrenia è bassissima (1/100), quindi l’esito del test è quasi certamente sbagliato. In altri termini: un test quasi infallibile che quasi certamente ci fornirà verdetti errati. 

Il profano davanti allo studio statistico sarà molto impressionato perché pensa ad A e si dimentica regolarmente di B, ovvero di cio’ che più conta realmente.

https://feedly.com/i/entry//uNtJ5Te/bTWNrQ93eWUZRWG2zLfACizMrZ4kDb0FIs=_16ba45eece3:179c3f1:4b2e0c8b

martedì 25 giugno 2019

F trucchetti o verità?

Lo studio statistico non ti aggrada? Aumenta i confounder!

https://feedly.com/i/entry/ty+AzTYZ3TUuMuPycOdkUNamwQCXNpDbajbdLnbrc5c=_16b8d66d119:127bb1a:4b2e0c8b

domenica 16 giugno 2019

PUBBLICARE, PUBBLICARE, PUBBLICARE...

La gran parte degli articoli pubblicati sui giornali scientici sostiene tesi false (*) ma con un reale supporto fattuale. Come è possibile? Segue esempio.

La tua teoria è che mangiare cipolle riduce il rischio di Alzheimer. Per testarla, ti trovi un campione di anziani di cui dovrai rilevare in qualche modo il declino cognitivo e le abitudini alimentari. Poi esegui una regressione con il degrado cognitivo come variabile dipendente e il consumo di cipolle come variabile indipendente. Sfortunatamente, poniamo ch questa relazione non sia statisticamente significativa. Riesegui allora la regressione, questa volta separando uomini e donne. Quindi separa per genere. Quindi per razza e genere. Quindi per residenza. Quindi limitati a persone con più di 80. Quindi a persone con più di 90 anni. Quindi, segmenta in tre intervalli il consumo di cipolle: frequente, occasionale e nullo. In quattro intervalli. In cinque intervalli. Se ancora non trovi niente combina in tutti i modi possibili queste distinzioni. Qualcosa troverai, come minimo un paio di relazioni significative. Alla fine potrai scrivere un articolo intitolato, che ne so: "Effetto cognitivo sul consumo di cipolle presso le ultraottantenni afroamericane".

(*) occorre essere originali, e le tesi vere o sono ovvie o sono già state scoperte.

https://feedly.com/i/entry/kdOsXsDOArv7NIUZyL/8ar97/yj7YWTRj5isT+3ueM4=_16b56fb0f30:7e6c2:2a7e54a4

giovedì 27 settembre 2018

GENDER BIAS A BERKLEY

Riccardo Mariani

Adesso

GENDER BIAS A BERKLEY

Un caso vecchio (1973) ma sempre istruttivo: l’Università californiana ammetteva ai suoi corsi il 46% dei maschietti che presentavano domanda di iscrizione e solo il 30% delle femminucce. Scattò subito il processo per discriminazione di genere.

Tuttavia, il processo finì in nulla (in realtà nemmeno cominciò) quando si scoprì che TUTTE le facoltà dell’ Università prese una ad una, discriminavano i maschi.

Le ragazze respinte erano in numero sproporzionato solo perché si iscrivevano in modo sproporzionato alle facoltà più selettive

RATIONALWIKI.ORG

rationalwiki.org

lunedì 30 ottobre 2017

“Uno studio dice che…”

“Uno studio dice che…”.

Quando un interlocutore esordisce con questa formula, sulla discussione prima così animata e dallo sbocco incerto, cala il gelo: la “scienza” fa il suo ingresso in scena e non ammette repliche.

Ma cosa c’è dietro questa espressione che incute tanto timore?

Semplice: qualcuno da qualche parte ha raccolto dei dati e verificato con strumenti statistici che il fenomeno A è collegato al il fenomeno B.

Per esempio: il cancro al polmone è collegato al fumo.

Oppure: la diffusione delle armi da fuoco è collegata a una diminuzione dei crimini.

Oppure: la fede religiosa è collegata al benessere psico-fisico della persona.

Oppure: che un’esecuzione capitale risparmia la vita a 15 innocenti.

Eccetera.

Naturalmente, se “lo dice uno studio scientifico” significa che il collegamento appare tutt’altro che casuale, tant’è vero che supera i rigorosi esami statistici del caso.

In genere si usa dire che il legame è “statisticamente significativo“.

Poi, il ricercatore, fiero di quanto ha scovato, consegna la notizia ai giornalisti che confezionano un articolo a regola d’arte con titolo a carattericubitali “A è collegato a B”.

Eppure c’è qualcosa che non va in tutto questo, un’analogia ci può aiutare a capire. Vediamola..

***

Ammettiamo che presi da scrupolo vi sottoponiate ad un esame clinico per verificare se siete affetti datumore al colon.

Fortunatamente, esiste un esame affidabile che può dare una risposta alle vostre ansie, il margine di errore è limitato al 5% dei casi.

Si noti che ho scelto questo margine perché è anche il limite massimo che tollerano i test statistici di cui parlavo prima.

Ebbene, l’esame dice che voi siete malato. Mi dispiace ma è così.

Si noti che dire “sei malato” nella nostra analogia è un po’ come dire che “A è collegato a B”.

La depressione che vi coglie è il correlato dellostupore tipico dei lettori che leggono il giornale su cui si dà l’annuncio della scoperta scientifica.

Ma cosa rappresenta veramente questa piccola probabilità del 5%?

Nel test clinico rappresenta la probabilità di errore, ovvero la probabilità che una persona sana venga dichiarata malata.

Ma a voi questa probabilità cosa interessa? A voi interessa la probabilità di essere malati!

Così come a chi legge l’articolo sul giornale interessa più che altro la probabilità che tra A e B esista veramente il legame di cui si parla.

probabilmente le due probabilità sono collegate ma puo’ anche esservi una differenza apprezzabile. Come fate allora a calcolare la probabilità che più vi preme?

Bisogna conoscere altri dati. Per esempio, ammettiamo che su una popolazione di 10.000 anime esistano mediamente 5 casi di cancro al colon. Il “test affidabile” sarà stato in grado di isolarli, ma insieme a quei 5 avrà selezionato altri500 “falsi positivi“. Parlavamo Infatti è di un errore del 5%.

Ebbene, se siete tra coloro che il test ha dichiarato “malati” potete stare abbastanza tranquilli, la probabilità di essere sani resta comunque pari al 99% circa, non male!

C’è una bella differenza tra 5% e 99%!

Così come voi potete stare tranquilli anche i lettori del giornale farebbero bene a non sopravvalutarela notizia del collegamento tra A e B.

Sì badi bene che in questa storia nessuno ha mentito: c’era un test affidabile, c’erano esiti chiari e c’erano ricercatori seri. Nemmeno nell’articolo di giornale ha mentito, anche se avrebbe fatto meglio a non pubblicare un articolo per così poco. L’ “effetto bufala” è dovuto esclusivamente al fatto che conosciamo poco la statistica.

L’ “effetto bufala” fa più danni di qualsiasi fake news.

L’effetto bufala deriva da una confusione.

A noi interessa conoscere la probabilità di essere malati e tendiamo a credere che questa informazione sia sostituibile con l’esito di un test clinico affidabile. Confondere le due cose ci frega, lo abbiamo visto chiaramente ricorrendo all’analogia medica.

La confusione ci getta nel panico non appena prendiamo atto che l’esito di un test medico rigoroso risulta positivo. Ma presto scopriamo che questo panico non ha ragione d’essere poiché anche con un test positivo la vostra probabilità di essere sani resta del 99%!

Allo stesso modo, chi legge nella pagina scientifica l’ articolo di giornale rimane impressionato da come il collegamento tra A e B sia confermato da uno studio rigoroso. Ma non c’è ragione di restare particolarmente impressionanti e cambiare le proprie idee poiché ben poco sappiamo sulla reale probabilità che A e B siano realmente collegati. Parlando di questa “sporca” faccenda uno studioso di vaglia ha pubblicato un articolo ormai famoso con il titolo sintomatico: “Why Most Published Research Findings Are False“.

Noi tendiamo a pensare che la conoscenza fornitaci da un buon test statistico sia sostitutiva anzichéaggiuntiva della conoscenza precedente. Non è così, la conoscenza a priori continua a valere e a pesare, riceve solo un aggiornamento. Non rendersene conto crea distorsioni cognitive.

Ma cos’è concretamente la cosiddetta conoscenza a priori?

Dipende da caso a caso ma in generale possiamo dire che la conoscenza a priori per antonomasia è la conoscenza intuitiva ovvero il buon senso.

Se il buon senso e alla base della nostra conoscenza non rischiamo una deriva soggettivista? Non dobbiamo meravigliarci se una componente soggettivista preme alle porte: la statistica si fonda sulla probabilità e la probabilità ha un fondamento soggettivo.

Che fare?

La cosa migliore sarebbe quella di ripetere il test, e poi di ripeterlo ancora.

Inutile dire che nel caso degli “studi scientifici” mancano i fondi per condurre più volte lo stesso esperimento su vasta scala. Eppure, replicare i vecchi studi sarebbe scientificamente più proficuo che produrre l’ennesimo studio dall’esito “statisticamente significativo” ma concretamente incerto.

P.S. In realtà esiste un programma scientifico direplicazione degli studi pubblicati sulle riviste più prestigiose e come prevedibile raramente è riuscito a ripetere i risultati degli studi originali presi in considerazione. Curiosità: a quanto pare la psicologia fa molto peggio dell’economia.