next up previous contents
Next: o ? Commenti sul Up: Descrizione quantitativa dei dati Previous: pzd100 Altre misure di   Indice

pzd100 Misure di correlazione

Figura: Tempi di attesa per registrare un conteggio (tabella 1.2. Lo scatter plot in alto mostra la distribuzione congiunta del risultato di una misura dispari ($ t_{odd}$) e della misura immediatamente seguente ($ t_{next}$). In quello in basso sull'asse delle ordinate si ha invece la somma del risultato della misura dispari e della pari successiva ($ t_{sum}$).
\begin{figure}\centering\epsfig{file=fig/corr_cont.eps,clip=}\end{figure}

A volte i dati statistici si presentano a coppie (o a gruppi logici di dimensione maggiore) in quanto possono essere stati ottenuti contemporaneante nella stessa misura o sono semplicemente due caratteri della stessa unità statistica (coppie tempo e posizione di un corpo; temperatura e allungamento di una barretta; voto alla maturità e media dei voti all'Università di uno studente; altezza e peso di una persona; e così via). Non è necessario che le coppie abbiano questo legame ``forte'' attraverso un processo pressoché simultaneo di misura o si riferiscano alla stessa persona, ma possono essere anche più generali (temperatura registrata in due città diverse; temperatura massima estiva e temperatura minima invernale in una certa città; altezza del padre e quella del figlio; indice della borsa di Milano e livello dell'acqua a Venezia). La scelta è basata sul sospetto che esse possano essere in qualche modo legate fra di loro.

L'estensione a gruppi di $ n$ caratteri quantitativi (grandezze fisiche nelle nostre applicazioni di laboratorio), chiamati ``n-tuple'', è abbastanza automatica e quindi ci limitiamo a considerare il caso bidimensionale e chiamiamo le due grandezze $ x$ e $ y$.

Per ciascun carattere si possono calcolare tutte le misure di posizione, dispersione e forma che abbiamo incontrato, semplicemente considerandone uno alla volta. Questa operazione corrisponde quindi a proiettare la distribuzione bidimensionale in due distribuzioni unidimensionali.

Ne segue che le suddette misure di forma unidimensionali non sono sensibili a caratteristiche legate alla struttura bidimensionale dei dati. In particolare si perdono le correlazioni fra le due grandezze, ovvero la preferenza di $ y$ ad assumere certi particolari valori per ciascuno dei valori della $ x$. Ad esempio se le due città in cui si misura la temperatura sono vicine, o almeno sullo stesso emisfero, quando è caldo in una farà mediamente caldo anche nell'altra, e analogalmente per il freddo.

Il modo migliore per studiare le eventuali correlazioni fra i dati è di osservarli su uno scatter plot o con altra rappresentazione grafica opportuna (un normale grafico se c'è un solo punto per ogni coppia di possibili valori [$ x$, $ y$]) e considerare se è ragionevole che ci sia una dipendenza funzionale fra una grandezza e l'altra. Questo sarà argomento del capitolo sui cosiddetti fit.

Per ora presentiamo una variabile statistica atta a quantificare il grado di correlazione lineare fra le due grandezze, anche se ne sconsigliamo l'uso a questo livello, specie se non accompagnato da una ispezione grafica della distribuzione bidimensionale.

In analogia alla varianza di una variabile, si definisce la covarianza come media dei prodotti degli scarti delle due grandezze rispetto alla media:

Cov$\displaystyle (X,Y)$ $\displaystyle =$ $\displaystyle \frac{\sum_i (x_i-\overline{x})(y_i-\overline{y})}{N}$ (5.46)
  $\displaystyle =$ $\displaystyle \frac{\sum_k n_k(x_k-\overline{x})(y_k-\overline{y})}{N}$ (5.47)
  $\displaystyle =$ $\displaystyle \sum_k f_k(x_k-\overline{x})(y_k-\overline{y})$ (5.48)
  $\displaystyle =$ $\displaystyle \sum_k w_k(x_k-\overline{x})(y_k-\overline{y})\,.$ (5.49)

L'analogia formale consiste nel fatto che la covarianza di una variabile con se stessa è pari alla varianza

Cov$\displaystyle (X,X) =$   Var$\displaystyle (X)\,,$ (5.50)

come risulta ovvio dalla definizione.

Se Cov$ (X,Y)$ è positiva vuol dire che quando una delle due grandezze presenta scarti positivi (rispetto alla media) anche l'altra grandezza ha mediamente scarti positivi; se una ha scarti negativi anche l'altra ha mediamente scarti negativi. Se invece la covarianza è negativa significa che gli scarti si presentano preferibilmente con il segno opposto. Si dice che nei due casi le grandezze sono (linearmente) correlate positivamente o negativamente. Se essa è nulla non c'è correlazione (lineare) fra le due grandezze (ma ci può essere una correlazione più complicata).

Se si prova a calcolare la covarianza su coppie di valori anche scelti a caso raramente si avrà esattamente zero. Va quindi precisato meglio cosa si intende per covarianza ``piccola'' (prossima a zero). Per questo motivo si preferisce una variabile adimensionale, ottenuta dividendo la varianza per le deviazioni standard di ciascuna delle grandezze, prese come unità di scala. Si ottiene così il coefficiente di correlazione:

$\displaystyle \rho(x,y) = \frac{\mbox{Var}(x,y)}{\sigma(x)\sigma(y)}\,,$ (5.51)

che per costruzione assume valori compresi fra -1 e 1. Gli estremi corrispondono ai casi estremi di correlazione in cui tutti i punti sono perfettamente allineati su una retta con pendenza positiva ($ \rho=+1$) o negativa ($ \rho=-1$).

Come per la varianza, skewness e curtosi per il calcolo della covarianza non vengono utilizzate le formule che la definiscono, bensì si fa uso della proprietà

Cov$\displaystyle (x,y) = \overline{x y} - \overline{x}\cdot \overline{y}\,,$ (5.52)

dove con $ \overline{x y}$ è stato indicata la media del prodotto

$\displaystyle \overline{x\cdot y} = \frac{\sum xy}{N} = \frac{\sum_i x_iy_i}{N} = \frac{\sum_k n_k x_ky_k}{N} = \sum_k w_k x_ky_k$ (5.53)

Come esempio di ricerca di correlazioni mostriamo in alto della figura 5.2 lo scatter plot di due tempi di attesa consecutivi registrati al contatore. Non si notano correlazioni al di fuori di quelle che possono essere simulate da fluttuazioni casuali. La figura in basso mostra invece la somma di due tempi di attesa in funzione del primo di essi. In questo caso chiaramente la correlazione è stata forzata ed è infatti visibile nello scatter plot. Il coefficiente di correlazione vale nei due casi rispettivamente -0.24 e +0.63. Si noti come la figura indichi la presenza o assenza di correlazione molto più chiaramente di quanto non si possa evincere dalla differenza (dei moduli) dei due coefficienti di correlazione. In particolare, la correlazione di -0.24 è chiaramente prodotta dai grandi valori dei tempi, i quali sono seguiti o preceduti più frequentemente da numeri piccoli semplicemente perché le combinazioni di due tempi grandi sono più rare e quindi non sono apparse nelle 50 coppie della figura. Ma anche eliminando i punti in cui una delle due coordinate è maggiore di 14s il coefficiente di correlazione resta ancora abbastanza diverso da zero (-0.14).

Quindi, in conclusione, il coefficiente di correlazione misura il grado di correlazione lineare fra due grandezze, ma

L'argomento delle correlazioni verrà trattato più esaurientemente in relazione alle variabili casuali e ai fit. Quindi è preferibile non utilizzare tale variabile per il momento.


next up previous contents
Next: o ? Commenti sul Up: Descrizione quantitativa dei dati Previous: pzd100 Altre misure di   Indice
Giulio D'Agostini 2001-04-02