La distribuzione di frequenze è uno strumento fondamentale di statistica descrittiva: esso consente di convertire una variabile numerica contenente molteplici valori in una tabella compatta con poche ed essenziali informazioni. In questa lezione apprenderai come costruire correttamente una distribuzione di frequenze definendo numero di intervalli e loro ampiezza.
Definizione di distribuzione di frequenze
In statistica il termine frequenza indica il numero di volte in cui un determinato evento/circostanza/osservazione/valore si verifica. Nel caso della distribuzione di frequenze di cui alla presente lezione, il punto di partenza per il calcolo della distribuzione non è una variabile qualitativa come appunto il Sesso, ma è una variabile quantitativa. L'obiettivo di ogni distribuzione di frequenze per dati quantitativi è creare dei gruppi (tecnicamente chiamati intervalli) e di contare quanti soggetti rientrano in ciascuno di questi intervalli.
L’intervallo è un insieme di numeri ordinato in senso crescente. Ad esempio, l’intervallo 10-20 è l’insieme di tutti i numeri che vanno da 10 a 20. Quando si parla di intervalli in statistica gli estremi dell’intervallo, ad esempio 10 o 20, fanno sempre parte dell’intervallo, salvo diversa espressa specificazione.
La distribuzione di frequenze è presentata sotto forma di tabella o istogramma attraverso cui è possibile estrarre informazioni circa la composizione e la distribuzione del campione rispetto ad intervalli definiti in corso di costruzione della distribuzione stessa. Ad esempio, valutando l’altezza di un campione di pazienti, la distribuzione di frequenza può essere presentata sotto forma di tabella in cui sono riportati nella prima colonna gli intervalli della variabile Altezza come definiti dal ricercatore e nella seconda colonna il numero di individui che rientrano in ciascun intervallo (Tabella 1).
Tabella 1 - Distribuzione di frequenze - Variabile Altezza
IntervalliFrequenza assolutaFrequenza relativaPercentualeFrequenza cumulataPercentuale cumulata
≤ 30 anni110.22220.2222
31-40 anni40.0880.3030
41-50 anni80.16160.4646
51-60 anni70.14140.6060
61-70 anni90.18180.7878
≥ 70 anni110.22221.00100
Totale501.00100
Indipendentemente dal tipo di presentazione scelta - tabellare o grafica - ciò che emerge osservando le due distribuzioni è che il campione è composto in prevalenza da soggetti con altezza compresa tra 160 cm e 179 cm e che ci sono 3 soggetti la cui altezza è superiore o uguale a 190 cm.
Costruire una distribuzione di frequenze
Introduzione al caso pratico
Consideriamo un dataset composto di 50 individui e per i quali è stata osservata la variabile Età. La copia del dataset è riportata nella Tabella 2.
Tabella 2 - Variabile Età
IDEtà
185
224
349
448
564
681
762
830
952
1077
1168
1231
1320
1433
1581
1622
1780
1843
1942
2042
2119
2220
2364
2422
2519
2662
2754
2846
2941
3057
3158
3256
3356
3438
3565
3623
3782
3867
3976
4086
4133
4254
4324
4473
4549
4666
4766
4872
4926
5082
La variabile Età è una variabile quantitativa
Continue reading...
Please Login to see full post.