#
# per cominciare a prendere confidenza con variabili correlate
#
# G. D'Agostini  LEC, dic 2009 
#--------------------------------------------------------------
# partiamo da x1 e x2, ad es. 
mu1 = 100; sigma1 = 10;
mu2 = 200; sigma2 = 5;

x1 <- rnorm(10000, mu1, sigma1)
x2 <- rnorm(10000, mu2, sigma2)

plot(x1, x2)

# covarianxa
cov(x1, x2)    # il valore risultante e' "grande" o "piccolo"?

# coefficiente di correlazione
cor(x1, x2)    # questo si capisce meglio


# calcoliamoli una volta "a mano":
covx1x2 <- mean(x1*x2) - mean(x1)*mean(x2)
covx1x2
rhox1x2 <- covx1x2 / ( sd(x1) * sd(x2) )
rhox1x2

# Ok, come quelli dati da cov() e cor()
# Eventuali differenze saranno dovute a qualche
# solito pasticcio frequenstista ("n-1")


# ora costruiamo due nuove variabili:
y1 = x1 + x2
y2 = x1 - x2

plot(y1, y2) # ora i punti sono 'correlati'
            # vediamo di quanto:
cor(y1, y2)

# confrontiamo ora y2 con le grandezze di input:
plot(y2, x1)
cor(y2, x1)

plot(y2, x2)
cor(y2, x2)

# come mai?


# costruiamoci queste altre due
y3 <- 2 * x1  + 100
y4 <- -5 * x1 + 100

layout( matrix( c(1:4), 2, 2) )
plot(x1, y3)
plot(x1, y4)
plot(x2, y3)
plot(x2, y4)
layout(1)

# quanto valgono i coefficienti di correlazione?
# [rispondere soltanto guardando i plot, poi usare cor()]


# infine:
p <- x1 + x2
A <- x1 * x2
r <- x1 / x2

# quindi:
# - controllare come p, A e r sono correlate fra di loro
# - controlare come sono correlate con x1 e x2
# ... e farsene una ragione (o provare a fare i conti)


# Come ESERCIZIO 'teorico':
# 1) trovare le formule per calcolare la covarianza
#    (da cui il coefficiente di correlazione, avendo
#    anche le sigma, che gia' sappiamo valutare)
#    fra grandezze che sono combinazioni lineari di grandezze
#    di input indipendenti non e' complicato;
# 2) quindi si linearizzano le relazioni con lineari
#    come fatto per valutare in modo approssimato
#    varianze di funzioni qualsiasi