next up previous contents
Next: Proprietà formali di covarianza Up: Covarianza e coefficiente di Previous: Covarianza e coefficiente di   Indice

Variabili correlate e misura della correlazione

Facciamo un esempio numerico per capire meglio il problema. Immaginiamo di dover lanciare 5 monete e di interessarci alle variabili casuali $ T_1$ e $ C_1$, numeri di teste e di croce. Consideriamo anche un altro lancio di 5 monete e chiamiamo $ T_2$ e $ C_2$ i rispettivi esiti. Possiamo costruire le distribuzioni doppie $ f_A(t_1,c_1)$ e $ f_B(t_1,c_2)$. Sebbene tutte le marginali siano uguali e quindi tutte la variabili abbiano un valore atteso 2.5 e una deviazione standard di 1.1, le due distribuzioni sono completamente diverse (vedi tabella 9.2). Ad esempio $ f_A(3,4)=0$ (evento impossibile), mentre $ f_B(3,4)=0.049$.

Tabella: Distribuzioni congiunta del numero di teste e numero di croci nel lancio di 5 monente ($ T_1$, $ C_1$) confrontata con quella del numero di teste e di croci relative a due diversi lanci di monete. In valori sono in percentuale.
  $ t_1$  
$ c_1$ 0 1 2 3 4 5  
0 0 0 0 0 0 3.1  
1 0 0 0 0 15.6 0  
2 0 0 0 31.3 0 0 $ \Lleftarrow f_A(t_1,c_1)$
3 0 0 31.3 0 0 0  
4 0 15.6 0 0 0 0  
5 3.1 0 0 0 0 0  
$ c_2$              
0 0.1 0.5 1.0 1.0 0.5 0.1  
1 0.5 2.4 4.9 4.9 2.4 0.5  
2 1.0 4.9 9.8 9.8 4.9 1.0 $ \Lleftarrow f_B(t_1,c_2)$
3 1.0 4.9 9.8 9.8 4.9 1.0  
4 0.5 2.4 4.9 4.9 2.4 0.5  
5 0.1 0.5 1.0 1.0 0.5 0.1  


La differenza di rilievo fra le due distribuzioni dell'esempio è che mentre nella prima ad ogni valore di $ T_1$ può essere associato un solo valore di $ C_1$, nella seconda la conoscenza di $ T_1$ non modifica lo stato di incertezza rispetto a $ C_2$: $ T_1$ e $ C_1$ sono dipendenti (o correlate); $ T_1$ e $ C_2$ sono indipendenti (o scorrelate). Questo fatto si riflette sulle distribuzioni condizionate, le quali differiscono nei due casi. Ad esempio $ f(t_1=0\,\vert\,c_1=5)=1$, mentre $ f(t_1=0\,\vert\,c_2=5)=0.031$, e così via

Dovendo quantificare il grado di correlazione con un solo numero si utilizza il valore atteso del prodotto degli scarti rispetto alle previsioni:

E$\displaystyle \left[\left(X-\mbox{E}(X)\right)
\left(Y-\mbox{E}(Y)\right)\right]\,.$

Esso è chiamato covarianza ed è indicato con Cov$ (\cdot,\cdot)$:

Cov$\displaystyle (X,Y) \equiv$   E$\displaystyle \left[(X-\mbox{E}(X)) (Y-\mbox{E}(Y))\right]\,.$ (9.16)

Per capire come mai essa possa essere adeguata9.3 allo scopo si pensi che Ne segue che ci aspettiamo covarianza negativa fra $ T_1$ e $ C_1$ dell'esempio di tabella 9.2, covarianza nulla fra $ T_1$ e $ C_2$.

Per quanto riguarda il valore assoluto della covarianza, esso non indica in maniera intuitiva quanto due variabili sono correlate, in quanto la covarianza non è una grandezza omogenea con le due variabili casuali e dipende anche dall'unità di misura scelta per le variabili. Si preferisce rendere adimensionale la misura di correlazione, dividendo per le scale naturali degli scarti di ciascuna variabile, ovvero le due deviazioni standard. Si definisce allora il coefficiente di correlazione, definito come

$\displaystyle \rho(X,Y)= \frac{\mbox{Cov}(X,Y)}{\sigma(X)\,\sigma(Y)} = \frac{\mbox{Cov}(X,Y)}{\sqrt{\mbox{Var}(X)\, \mbox{Var}(Y)}}\, .$ (9.17)

Come detto a proposito della previsione e della sua incertezza, in principio ci potrebbero essere modi alternativi per riassumere con un numero una caratteristica di una distribuzione. Volendo giustificare questa scelta per la misura di correlazione, possiamo fare le seguenti considerazioni:

La figura 9.2 mostra alcuni esempi di variabili doppie discrete in cui la $ f(x,y)$ è proporzionali all'intensità dei punti.

Figura: Esempi di correlazione fra variabili casuali.
\begin{figure}\centering\epsfig{file=fig/correl.eps,width=\linewidth,clip=}\end{figure}

Si faccia attenzione come correlazioni complicate possano dare $ \rho=0$.
next up previous contents
Next: Proprietà formali di covarianza Up: Covarianza e coefficiente di Previous: Covarianza e coefficiente di   Indice
Giulio D'Agostini 2001-04-02