Medicina Popolare Disclaimer MedPop Galenica domestica
♔ Statistica epidemiologica Biometria
HOME .php .html .pdf Biometria Epidemiologia Statistica
Statistica epidemiologica    Statistica descrittiva    Statistica inferenziale   Correlazioni e causalità

La Sapienza Università di Roma

a cura di P. Forster & D. Rüegg

Scetticismo esistenziale: il dubbio che verte sulla possibilità dell'uomo di conoscere il vero.

I miei primi confronti personali con una statistica pubblicata sono i seguenti:

  1. mi chiedo, con che criteri venne costruito (partendo da una semplice correlazione) un nesso causa → effetto plausibile (o se sono invertibili causa ed effetto o se ci sono delle determinanti a monte per i correlati).
  2. mi chiedo, come i dati sono stati rilevati o misurati
  3. mi chiedo, se la campionatura applicata è rappresentativa per cosa
  4. mi chiedo poi in seconda approssimazione:
    • se il risultato devia significativamente dall'aleatorio
    • se degli eventuali paragoni sono ragionevoli,
    • se le conclusioni sono plausibili (o sono invece p.es. basate su analogie) ed ev.
    • come e da chi vennero stabiliti dei valori di referenza e in quale ambito e come ulltimo,
    • se la rappresentazione grafica inganna.

Se una delle risposte non è soddisfacente, scarto le conclusioni al tema come errato, incompleto, manipolativo, ignorante, ...


1.  Prefaccia

La statistica è diventata parte integrante della nostra vita informativa quotidiana.

Tanto di più mi disturba di trovare ovunque delle interpretazioni e conclusioni di statistiche evidentemente errate.

Per questo motivo mi ero deciso di scrivere un trattato che permette a scoprire le gabbole in merito e di tirare delle conclusioni con le dovute regole e almeno plausibili.
Questo lavoro mi è rimasto risparmiato: ho trovato delle dispense sul tema professionalmente impeccabili e nel medesimo tempo di alto livello didattico nei scritti di dott. Marcello Guidotti della Sapienza Università di Roma ad uso pubblico. Mi sono quindi deciso di renderli disponibili anche sul nostro sito MedPop per dei lettori tutt'altro che accademici.

La disciplina della statistica è molto antica e risale agli egiziani e agli ebrei del vecchio testamento nonché all'antica Cina. Furono usati a scopi demoscopici e fiscali fino al crollo del impero Romano. Dopo non venne più applicata (o solo in tracce) fino verso la fine del '600 quando riprese come "artimetica politica". Nell'800 le nazioni avanzate Europee disponevano di Uffici statistici nazionali (in Italia dal 1861).

Intrecciato con dei nuovi teoremi matematici dell'epoca e lo sviluppo delle teorie probabilistiche, la statistica si evolve, (prima descritiva e poi anche inferenziale) e diventa uno dei strumenti più taglienti di tante scienze moderne basate su metodi induttivi e obbligati a trattare grandi quantità di dati rilevati e sintetizzarli ragionevolmente.

Statistica
La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso. Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa. La statistica studia come raccogliere i dati e come analizzarli per ottenere l'informazione che permetta di rispondere alle domande che ci poniamo. Si tratta di avanzare nella conoscenza partendo dall'osservazione e dall'analisi della realtà in modo intelligente e obiettivo. È l'essenza del metodo scientifico.
Epidemiologia
L'epidemiologia (dal Greco επι= sul, δημος= popolo e λογος= discorso, studio) è la disciplina biomedica che si occupa dello studio della distribuzione e frequenza di malattie e di eventi di rilevanza sanitaria nella popolazione. Collabora con molte altre discipline come la medicina preventiva e clinica. Si occupa di analizzare le cause, il decorso e le conseguenze delle malattie.

it.Wikipedia

La statistica può essere divisa in due campi di applicazione:

  1. statistica descrittiva: il suo obiettivo è ricavare da un insieme di dati raccolti in tabelle e grafici (troppo numerosi per poter essere esaminati singolarmente) alcune informazioni significative per il problema studiato;
  2. statistica inferenziale: il suo obiettivo è fornire metodi che servono ad imparare dall'esperienza, cioè a costruire modelli per passare da casi particolari al caso generale. Nella statistica inferenziale o induttiva, si usano anche tecniche del calcolo delle probabilità.


2.  Insidie delle statistiche

Originale

Lo scopo di questa sezione non è finalizzato alla presentazione di semplici tecniche statistiche, bensì alla comprensione della loro importanza e dei loro limiti. La finalità è permettere di valutare non tanto le raffinatezze di una ricerca statistica, per la quale occorre una preparazione specifica, piuttosto saper individuare gli elementi che portano a dare credito ad una qualsiasi statistica.

Sono trattati i seguenti argomenti:
Visualizzazione grafica Standardizzazione Altre statistiche strane Quando le cose non sono del tutto vere e del tutto false

2.1  Visualizzazione grafica

di dati statistici


principali cause di morte nell'uomo
nei Paesi industrializzati (fonte: WHO)

Nel grafico a lato, la scala delle ascisse indica i tassi di mortalità per 100.000 persone e per anno (cioè il numero di morti ogni 100.000 persone in 1 anno per ogni causa considerata). In particolare, le barre verdi forniscono i valori osservati nel 1900, quelle gialle i valori del 1984.

Ora, confrontando le differenze fra le barre verdi e le gialle per tutte le cause riportate nel grafico, saltano agli occhi gli enormi progressi ottenuti per le malattie infettive (tubercolosi, influenza, polmonite ecc.) alcune delle quali risultano oggi pressocché scomparse nei Paesi industrializzati a cui il grafico si riferisce.

La facilità con cui abbiamo acquisito informazioni dal grafico, è una conseguenza della loro visualizzazione in forma di grafico a barre: questa rappresentazione consente di cogliere le caratteristiche salienti della rilevazione statistica e di effettuare raffronti con notevole immediatezza rispetto ai soli dati numerici. Per contro, a questa maggior immediatezza di sintesi può far riscontro una diminuzione del senso critico nel valutare i dati.


Vita e morte in Brasile

Per esempio, nel 1984 sono morte per cancro circa 190 persone su 100.000, mentre nel 1900 ne sono morte - per la stessa causa - circa 60 su 100.000. Anche per le malattie cardiache, si nota un incremento da 140 (1900) a 320 (1984).

In realtà, questi regressi sono apparenti in quanto sono legati all'allungamento della vita media della popolazione. Per interpretare correttamente i dati, bisogna tener conto che in una popolazione con molti anziani saranno più frequenti le loro tipiche patologie, quali appunto le neoplasie o le malattie cardiache.

Se non si tiene in considerazione l'allungamento della vita media e la crescita della popolazione, è facile costruire grafici che suggeriscono conclusioni false.


falsa statistica

Fino all'abolizione del proibizionismo, in base al Volstead Act (approvato dal Congresso nel 1919) nessuna birra poteva contenere alcol in misura maggiore allo 0.5% in volume. Il primo frigorifero fu commercializzato dalla Electrolux nel 1930. La radio iniziò ad avere vasta diffusione negli anni '30. Ecco, ora guardate il grafico precedente (inventato): si può concludere che i primi modelli di radio e frigorifero siano stati in qualche modo responsabili di un maggior numero di decessi? Ancora, la birra era probabilmente meno consumata durante il proibizionismo e questo potrebbe spiegare la maggior mortalità nel 1984 rispetto al 1930.

Come è chiaro, se non si considera l'aumento della popolazione, si possono produrre raccolte di dati che dimostrano qualsiasi cosa. Per questo, come vedremo, è importante analizzare il grado di correlazione che lega due raccolte di dati (test chi-quadro).

Uno studio mise effettivamente in evidenza che in una città si era verificato un forte aumento delle morti per malattite cardiache e del consumo di birra. Il consumo di birra aumentava la probabilità di subire un attacco cardiaco? No, in effetti si dimostrò che la rilevazione era stata fatta in due periodi differenti, il secondo dei quali aveva visto un notevole incremento della popolazione cittadina.

Questi esempi dimostrano come per effettuare un confronto preciso che annulli l'effetto dell'età, e della numerosità della popolazione, i dati devono essere standardizzati in base a queste variabili. Ovviamente, la standardizzazione si può riferire anche ad altri elementi.

◦⦆─────⦅◦

2.2  Standardizzazione

di uno studio statistico
La non standardizzazione di dati può condurre a conclusioni errate. Per esempio, supponiamo che i responsabili marketing di un'azienda farmaceutica si trovino di fronte alla tabella seguente:

Farmacie Numero Prescrizioni
30gg
media
zona A 30 600 20
zona B 18 460 25.5

Dall'analisi della media, la zona B sembra molto più ricettiva della zona A. Questo potrebbe suggerire che gli isf (informatori scientifici del farmaco) della prima zona, nelle loro interviste con i medici, siano meno convincenti degli isf della seconda zona. Tuttavia, in questo caso la media è falsata per non aver considerato la tipologia delle farmacie.

Infatti, le farmacie devono essere classificate come farmacie di "quartiere", la cui clientela è stabile, e farmacie di "passaggio", la cui clientela non è riconducibile alle prescrizioni di un numero ben individuato di medici, ma è occasionale (il paziente esce dallo studio medico e consegna la ricetta ad una farmacia situata in posizione centrale). Così, dividendo le farmacie per tipologia, si costruisce una nuova tabella:

 

Farmacie Numero Prescrizioni
30gg
Media
zona A 16 di quartiere 340 21.5
14 di passaggio 260 18.5
zona B 12 di quartiere 260 21.6
6 di passaggio 200 33.3

Dalla nuova tabella si vede che il numero medio di prescrizioni, limitatamente alle farmacie di quartiere, è indifferente per le due zone considerate. Lo scarto fra farmacie "di quartiere" e farmacie "di passaggio" verrà discusso in un esempio relativo al campionamento.

◦⦆─────⦅◦

2.3  Statistiche strane

Gli esempi che seguono mostrano statistiche che collezionano "numeri in libertà".

esempio 1: un articolo su Il Messaggero del 31 agosto 2003, riportava la seguente tabella:

1.000.000 gli italiani che soffrono di scompensi cardiaci
235.000 le persone che muoiono ogni anno in Italia per malattie cardiovascolari
160.000 le persone fra i 35 e i 64 anni che ogni anno subiscono un attacco cardiaco
187 i morti per infarto miocardico ogni 100.000
1 persona ogni 4 minuti subisce un attacco cardiaco e uno su quattro non sopravvive
6 a 1 il rapporto tra gli uomini colpiti e le donne

Una persona ogni 4 minuti subisce un attacco cardiaco e uno su quattro non sopravvive.

Stando a questa affermazione "giornalistica", per attacco cardiaco muore una persona ogni 16 minuti. Questo significa che poiché un anno comprende 525.600 minuti, muoiono 32.850 persone ogni anno.
Ma dalla stessa tabella risulta che le persone morte ogni anno sono 235.000!
Questa statistica, della quale non è citata la fonte, non ha alcun interesse.

esempio 2: alcune statistiche dimostrano che la maggior parte degli incidenti automobilistici coinvolgono autovetture che viaggiano a velocità moderata e che si verificano pochissimi incidenti a velocità superiori a 150 km/h.

Questo non significa che il detto "chi va piano va sano e va lontano" sia sbagliato... Il fatto è che le statistiche non implicano necessariamente relazioni di causa-effetto. La maggior parte degli automobilisti guida a velocità moderate ed è naturale che la maggior parte degli incidenti si verifichi a queste velocità.

esempio 3: è stato riportato che la probabilità di morire in Marina durante il conflitto Ispano-americano era pari a 9/1000. Il tasso di mortalità nella città di New York in quel periodo era 16/1000, Si doveva concludere che verso la fine del 1900 era più sicuro essere in marina durante la guerra piuttosto che vivere a New York?

Questo è ovviamente assurdo. Le due statistiche non sono riferibili allo stesso tipo di popolazione. I marinai sono giovani adulti in piena salute; la popolazione di New York ha una differente composizione della popolazione, che dovrebbe includere bambini, anziani, malati. Questa popolazione, nell'insieme ha una mortalità più elevata dei giovani adulti in salute.

esempio 4: secondo un gruppo di studiosi dell'università di Bristol, che ha esaminato il comportamento di 2.438 uomini di mezza età del Galles, gli uomini che non si radono ogni giorno rischiano l'infarto o un attacco cardiaco. E in più potrebbero avere problemi di tipo ormonale che influirebbero sulla sfera sessuale.

Secondo quanto sostengono i ricercatori, negli ultimi 20 anni ci sono stati 835 decessi. Di questi il 45% riguardava uomini che non si radevano quotidianamente, mentre solo il 31% era rappresentato da maschi che si facevano la barba ogni giorno. Raccolte di dati simili a questa, senza aver specificato dettagliatemente le possibili variabili non hanno alcuna validità scientifica.

esempio 5: una ricerca condotta intervistando un vastissimo campione di persone, dimostrò inequivocabilmente che i mancini hanno un'aspettativa di vita nettamente inferiore rispetto ai destrimani. Tale conclusione venne raggiunta constatando che i mancini fossero il 15 per cento di tutti i bambini americani al momento della nascita. Però la percentuale di mancini si riduceva al 5 per cento fra i 50 enni e solo all'1 per cento tra gli ultra 80 enni.

L'errore, in questo caso è legato al differente comportamento educativo del passato: le persone che oggi hanno una cinquantina d'anni sono state forzate fin dall'infanzia, com'era d'uso allora, da insegnanti e famigliari, ad utilizzare la mano destra, così la percentuale di mancini ufficiali diminuisce con l'aumentare dell'età. Però, in conseguenza del fatto che non si cerca di "correggere" un problema inesistente.

esempio 6: una ricerca condotta in Germania, dimostrò che i guidatori più infedeli erano quelli alla guida di Porsche e BMW, rispettivamente adulteri nel 49 e 47% dei casi.

Possedere un'auto costosa e blasonata è un elemento di richiamo per le donne sensibili al fascino dell'uomo in carriera e di successo; tuttavia, la ricerca dimostrò che anche il 37% delle donne "Porschiste" tradiva con regolarità i propri partner (!?).
Al contrario, le mogli dei proprietari di vetture Opel possono stare abbastanza tranquille: solo il 31% dei loro proprietari è un adultero...

◦⦆─────⦅◦

2.4  Quando le cose non sono ...

del tutto vere e del tutto false

Accanto a statistiche mal costruite e/o affette da errori di metodo, ve ne sono alcune che sono sempre vere, o, se si preferisce, sono comunque non false.

esempio 1: 2 dentisti su 3 raccomandano la pasta dentifrica "come si chiama". Come hanno preso questa decisione? Facile. Trovate due dentisti che raccomandano "come si chiama" e un dentista che non lo fà.

Questa statistica potrebbe sembrare banale; tuttavia, molto spesso è possibile fare simili affermazioni, sfruttando il fatto che nella statistica la proprietà transitiva (se A > B e B > C, allora A > C) non è sempre vera.
Osservate la tabella seguente, dove vi sono tre prodotti A, B, C scelti, in ordine di preferenza da tre gruppi di persone con la stessa consistenza numerica, per es., 10, 10 e 10.

prodotto
preferito
prodotto
preferito
prodotto
preferito
gruppo 1
consigliato da: 1/3
A B C
gruppo 2
consigliato da: 1/3
B C A
gruppo 3
consigliato da: 1/3
C A B

Come si vede, il primo gruppo ha scelto, nell'ordine A, B, C; il secondo gruppo, B, C, A, ecc.

Come è chiaro, due gruppi su tre (primo e terzo gruppo) preferiscono A a B.

Però, anche 2/3 delle persone intervistate (secondo e terzo gruppo) preferiscono C ad A

Se controllate attentamente la tabella, vedrete che i 2/3 delle persone intervistate preferiscono B a C.

 

prodotto
preferito
prodotto
preferito
prodotto
preferito
gruppo 1
consigliato da: 1/3
A B C
gruppo 2
consigliato da: 1/3
B C A
gruppo 3
consigliato da: 1/3
C A B

Questo paradosso statistico è noto come paradosso di Arrow, dal nome di Kenneth J. Arrow (premio Nobel per l'economia, 1972), il quale dimostrò sulla base di questa e di altre considerazioni logiche l'impossibilità di un sistema democratico perfetto. Il paradosso si presenta in ogni situazione nella quale si debba decidere tra possibilità raggruppate a due a due rispetto a tre caratteristiche.

Alcune affermazioni sono formulate in modo da dare un effetto positivo.

esempio 2: Nel 1948, era stato scritto «Oggi, l'energia elettrica è disponibile per oltre i 3/4 delle fattorie U.S.».

Si sarebbe potuto scrivere «Quasi 1/4 delle fattorie U.S. non hanno energia elettrica disponibile». E d'altra parte, entrambe le affermazioni sono fuorvianti... dicono "disponibile". Non significa che l'abbiano.

Questo è dunque un esempio di informazione corretta ma presentata in una forma ottimistica.

3.  Statistica descrittiva



La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti grafici (diagrammi a barre, a torta, istogrammi, boxplot) e indici (indicatori statistici, indicatori di posizione come la media, di variazione come la varianza e la concentrazione, di correlazione, ecc.) che descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico.

4.  Statistica inferenziale



La statistica inferenziale (inferenza vuol dire trarre delle conclusioni logiche a partire dai dati disponibili) ha come obiettivo, quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica (la legge probabilistica) del fenomeno che si osserva.

5.  Allegati

5.1  Nota dell'autore

Dott. Marcello Guidotti Università La Sapienza di Roma.

Alcuni esempi discussi sono stati tratti dal sito: http://www.datavis.ca/gallery/

Marcello Guidotti, copyright 2003-2006-2010 - ultimo aggiornamento 13 settembre 2010
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamente valenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi è alcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alle autorità regolamentatorie.

◦⦆─────⦅◦

5.2  Sitografia

MedPop

description: Biometria, Statistica, epidemiologica, descrittiva, inferenziale, Indici di peso corporeo, Rischio peso, Colesterolemia, Lipidemie, MedPop, Medicina popolare
description: Epidemiologia, statistica, Correlazione, causalità, ipotesi, Implicazioni, confusione, Analisi di regressione, Statistiche di paragone, MedPop, medicina popolare
description: Dati, statistici, fondamentali, Media, moda, mediana, Deviazione standard, Indicatori, distribuzioni, Campo di variazione, Coefficiente di variazione, interpretazione, Lavoisier, somma, totale, Medie, mobili, Ovvietà, paradosso di Simpson, fattore d'inganno, Contesto, MedPop, Medicina popolare
description: campionamento, sondaggi, probabilistico, randomizzazione, Errori, caso, Variabilità, stima, Errore standard, limiti fiduciali, significatività, chi-quadro, Yates, Fisher, Meta-analisi, Eterogeneità, MedPop, Medicina popolare
description: Formula di Broca, Body mass index, BMI, IMC, giovani, Indice di massa corporea, mortalità
description: biometria, antropometria, medicina popolare, profana, laica, complementare, rischio peso, aspettativa vita, corporeo, Indici, IMC, indice di massa corporea, BMI, body mass index, Valutazione, biologiche, biologica, Implicazioni, mediche, sanitarie, Determinanti, peso, Valutazione peso, Misure, pazienti, sottopeso, sovrapeso, magrezza, obesità, Peter Forster, Daniela Rüegg
description: medicina popolare, colesterolo, colesterolemia, mortalità, stress, prevenzione, sanitocrazia, lipoproteine, Lipidemie, Valutazione, rischi, HDL, LDL, valori di referenza, variazioni, statine, resa, emboli, trombi, Correzioni, infarto, occlusioni vasali

Wikipedia

Vari

5.3  Commenti

alla pagina Biometria / ♔ Statistica epidemiologica: ev. cliccare sul titolo per arrivarci.

Proveniente da Redazione: http://pforster.no-ip.org/~admin/pmwiki/pmwiki.php/Biometria/Statistica
ultima modifica December 31, 2011, at 10:57 AM
Cc by P. Forster nc-2.5-it