Che cos’è il paradosso di Simpson


Il paradosso di Simpson è un fenomeno statistico in cui un’associazione tra due variabili in una popolazione emerge, scompare o si inverte quando la popolazione viene suddivisa in sottopopolazioni.

Supponiamo che tu abbia due scatole di palline rosse e verdi:

Scatola 1:

  • 80% di palline rosse
  • 20% di palline verdi

Scatola 2:

  • 40% di palline rosse
  • 60% di palline verdi

Ora, supponiamo che tu prenda casualmente una pallina da ciascuna scatola:

  • Da Scatola 1, la probabilità di prendere una pallina rossa è dell’80%.
  • Da Scatola 2, la probabilità di prendere una pallina rossa è del 40%.

Ma se consideriamo globalmente le due scatole e il colore delle palline:

  • Palline rosse: (80% + 40%) / 2 = 60%
  • Palline verdi: (20% + 60%) / 2 = 40%

Ora sembra che la probabilità di prendere una pallina rossa sia più alta in entrambe le scatole, ma quando guardiamo il totale combinato, sembra che la probabilità di prendere una pallina rossa sia diminuita. Questo è un esempio semplice di come il Paradosso di Simpson può portare a risultati controintuitivi quando si combinano dati da diverse categorie o gruppi.

Due variabili possono essere associate positivamente in una popolazione, ma essere indipendenti o addirittura associate negativamente in tutte le sottopopolazioni.L’esempio classico che si fa in questi casi è quello dei due battitori di baseball che, presi singolarmente in annate diverse, avevano percentuali di battuta a favore di uno salvo poi, aggregando il dato, risultare in favore dell’altro. Jeter aveva un 25% di percentuale di battute di successo in un anno, mentre Justice aveva il 25,3%; in un altro anno, il primo presentava il 31,4% in favore contro il 32,4% del secondo. Sebbene Jeter fosse il migliore in termini di percentuale sugli anni singoli, sommando i dati si otteneva un risultato diverso:

12/48 = 25% Jeter vs 104/411= 25,3% Justice anno 1

183/152 = 31,4% Jeter vs 45/140= 32,4% Justice anno 2

ma poi:

12+183/48+152 = 195/630 = 31% Jeter

12+183/48+152 = 195/630 = 27% Justice

I casi che presentano il paradosso non sono problematici dal punto di vista della matematica e della teoria delle probabilità, ma sono comunque sorprendenti per molti. Inoltre, il paradosso ha implicazioni per una serie di aree che si basano sulle probabilità, tra cui la teoria delle decisioni, l’inferenza causale e la biologia evolutiva. Infine, ci sono molti casi di paradosso, tra cui l’epidemiologia e gli studi sulla discriminazione, in cui la comprensione del paradosso è essenziale per trarre le conclusioni corrette dai dati. Un’analisi matematica rigorosa a riguardo è presente a questo indirizzo.

SMS Marketing? Inviare SMS promozionali a basso costo Scopri SMSHosting – Oppure usa il codice PROMO: PRT96919