next up previous contents
Next: pzd100 Misure di correlazione Up: Descrizione quantitativa dei dati Previous: Misure di dispersione e   Indice

pzd100 Altre misure di forma

Come il coefficiente di variazione offre un modo per riassumere in un numero la larghezza relativa (alla media) della distribuzione, così a volte si può essere interessati a quantificare altre caratteristiche di forma della distribuzione. Quelle di maggiore interesse e uso sono la asimmetria e la dispersione rapportata al campo di variabilità (invece che alla media).

Per mettere in evidenza eventuali asimmetrie si può utilizzare la media delle potenze dispari degli scarti, con esclusione del primo ordine che sappiamo essere identicamente nulla. Per semplicità si sceglie il cubo degli scarti. Poiché la potenza è maggiore di 1 vuol dire che scarti lontani hanno importanza maggiore ai fini della media. Ne segue che se la media dei cubi degli scarti è positiva significa che la distribuzione ha una coda verso ``destra'' (per valori maggiori della media), se è negativa ha una coda verso sinistra. Per ottenere una misura di asimmetria con la quale poter confrontare distribuzioni che si estendono su ordini di grandezza diversi e che non dipenda dall'unità di misura usata è conveniente esprimere la media dei cubi degli scarti in una unità che sia ``naturale'' per la distribuzione di interesse. Questa scala naturale è scelta essere il cubo della deviazioni standard.

Il cubo degli scarti in unità del cubo della deviazione standard è chiamato skewness (skew in inglese significa infatti sbilenco, ma ``sbilenchità'' suona decisamente male5.8...):

skewness $\displaystyle =$ $\displaystyle \frac{1}{\sigma^3}\frac{\sum_i(x_i-\overline{x})^3}{N}$ (5.36)
  $\displaystyle =$ $\displaystyle \frac{1}{\sigma^3}
\frac{\sum_k n_k(x_k-\overline{x})^3}{N}$ (5.37)
  $\displaystyle =$ $\displaystyle \frac{\sum_k w_k (x_k-\overline{x})^3}{\sigma^3}$ (5.38)
  $\displaystyle =$ $\displaystyle \frac{m_3}{\sigma^3}\,,$ (5.39)

dove con $ m_3$ è stato indicato il momento terzo rispetto alla media.5.9

Svolgiamo i conti in dettaglio per il caso del contatore per $ T=3\,$s:

$\displaystyle \sum_k n_k(x_k-\overline{x})^3$ $\displaystyle =$ $\displaystyle 56\cdot (-0.226)+ 32\cdot 0.064
+ 9\cdot2.74 + 2\cdot 13.82$  
    $\displaystyle + 1\cdot 39.304$  
  $\displaystyle =$ $\displaystyle -12.7 + 2.0 + 24.7 + 27.6 + 39.3 \, = \, 80.9$  
$\displaystyle m_3$ $\displaystyle =$ $\displaystyle 0.809$  
$\displaystyle \frac{m_3}{\sigma^3}$ $\displaystyle =$ $\displaystyle 1.52 \,.$  

Il valore positivo è in accordo con l'ispezione visiva dell'istogramma, che mostra la coda verso destra più pronunciata di quella a sinistra.

L'ultima misura di forma che incontriamo è la curtosi (in inglese kurtosis). Essa indica l'acutezza della distribuzione, ovvero se la forma ricorda più un ``picco aguzzo'' o una specie di ``altopiano'' (a parte le ovvie ``irregolarità''). Essa è costruita da una media della quarta potenza degli scarti, opportunamente scalata alla quarta potenza della deviazione standard:

curtosi $\displaystyle =$ $\displaystyle \frac{1}{\sigma^4}\frac{\sum_i(x_i-\overline{x})^4}{N}$ (5.40)
  $\displaystyle =$ $\displaystyle \frac{1}{\sigma^4}
\frac{\sum_k n_k (x_k-\overline{x})^4}{N}$ (5.41)
  $\displaystyle =$ $\displaystyle \frac{\sum_k w_k (x_k-\overline{x})^4}{\sigma^4}$ (5.42)
  $\displaystyle =$ $\displaystyle \frac{m_4}{\sigma^4}\,.$ (5.43)

Anche qui $ m_4$ sta per il momento quarto rispetto alla media. La media della quarta potenza da molto più peso alle grandi deviazioni della varianza. Quindi, qualitativamente, se il valore della kurtosis è ``grande'' significa che si verificano molti valori in un intorno della media dell'ordine della deviazione standard, più code molto distanti dalla media5.10 che danno più contributo a $ m_4$ che a $ \sigma^4$. Ad esempio le distribuzioni costituite dai dati sperimentali {1, 2, 3, 4, 5, 6, 7, 8, 9} e {0.65, 4, 5, 5, 6, 9.35} hanno stessa media e deviazione standard ( $ \overline{x}=5$, $ \sigma=2.58$) e sono simmetriche ( skewness$ =0$), ma differiscono per la curtosi (1.8 e 2.8 rispettivamente).

Per capire l'ordine di grandezza dei valori della curtosi si pensi che se la forma è ``a campana'' regolare (quella della la famosa distribuzione di probabilità gaussiana) la curtosi vale 3; se è piu aguzza si hanno valori maggiori, se più appiattita minori. Si noti invece come il valore della curtosi non dipende dalla larghezza della campana, in quanto il momento quarto è già rapportato alla larghezza misurata dalla deviazione standard.

Un'osservazione più generale è che dalle definizioni si verifica facilmente che sia skewness che curtosi sono invarianti per traslazione e per cambiamenti di scala.

Per il calcolo pratico di $ m_3$ e $ m_4$ si utilizzano, in analogia al caso della varianza, le seguenti proprietà:

$\displaystyle m_3$ $\displaystyle =$ $\displaystyle \overline{x^3} -3\overline{x^2}\overline{x}+2\overline{x}^3$ (5.44)
$\displaystyle m_4$ $\displaystyle =$ $\displaystyle \overline{x^4} - 4\overline{x^3}\overline{x}+6\overline{x^2}
\overline{x}^2-3\overline{x}^4.$ (5.45)

Si utilizzano quindi le sommatorie $ \sum x$, $ \sum x^2$, $ \sum x^3$ e $ \sum x^4$.

La tabella 5.4 riporta la skewness e la curtosi delle distribuzioni del contatore mostrate nelle figure 4.2 e 4.3. Per completezza sono state riportate anche media e deviazione standard. (L'abbondanza delle cifre significative è giustificata soltanto da esigenze di formattazione dei valori.) Si vede come l'ultima distribuzione di figura 4.3 ha raggiunto una forma di campana regolare (curtosi $ \approx 3$).

Tabella: Misure di posizione, dispersione, asimmetria e di acutezza delle distribuzioni di conteggi e di tempi di attesa (figure 4.2 e 4.3).
conteggi (cfr. figura 4.2)
$ T$ $ \overline{x} $ $ \sigma $ skewness curtosi
(s) (cont.) (cont.)    
3 0.60 0.81 1.52 5.57
6 1.02 0.93 0.71 3.05
12 2.19 1.35 0.31 2.51
30 5.16 2.15 0.38 3.05
100 17.81 4.25 0.28 3.14
300 53.48 7.52 0.36 3.56
tempi di attesa (cfr. figura 4.3)
Nr. di $ \overline{x} $ $ \sigma $ skewness curtosi
conteggi (s) (s)    
1 5.57 5.59 2.01 8.94
2 11.13 8.83 1.43 6.06
5 28.14 12.65 0.92 4.26
100 561.54 55.53 0.20 3.05



next up previous contents
Next: pzd100 Misure di correlazione Up: Descrizione quantitativa dei dati Previous: Misure di dispersione e   Indice
Giulio D'Agostini 2001-04-02