Next: Effetto di una prior Up: Impostazione del problema. Caso Previous: Introduzione Indice

Verosimiglianza normale con $\sigma$ nota

L'interesse per la distribuzione di Gauss è giustificato dal `fatto' che essa descrive abbastanza bene la distribuzione degli errori di misura.^11.2 Le ragioni per la quale adottiamo tale modello sono le seguenti.

Innanzitutto, dal confronto fra i singoli valori osservati e la loro media (o un valore vero convenzionale, nei casi fortunati in cui si riesca a calibrare le misure su una grandezza di riferimento) si nota che la distribuzione degli scarti (``errori'') somiglia ad una gaussiana nel senso visto a proposito dell'approssimazione normale di distribuzioni di variabili casuali discrete (vedi paragrafo 10.10). Come in quel caso la gaussiana si estendeva per valori al di fuori del range della variabile (tipicamente valori negativi, o valori maggiori di nel caso della binomiale), anche in questo caso bisogna prestare attenzione a non prendere troppo sul serio le code della gaussiana.

La seconda ragione è legata al teorema del limite centrale, in base ad argomenti simili a quelli per descrivere il cammino casuale incontrato nel paragrafo 10.15. Ammettiamo che nel processo di misura ci siano molti effetti di disturbo, ovvero dei piccoli errori di valore atteso nullo e deviazione standard $\sigma_i$ . L'errore totale è dato da $e=\sum_i e_i$ , di varianza $\sigma_e^2=\sum_i\sigma_i^2$ . Se valgono le condizioni del teorema del limite centrale, ci aspettiamo che sia descritto da una gaussiana di valor medio zero e deviazione standard $\sigma_e$ . In genere questa approssimazione è abbastanza buona, soprattutto perché è frequente il caso in cui sono le stesse ad essere descritte con buona approssimazione da una gaussiana.

Infine, a volte l'inferenza non è fatta a partire da una singola osservazione, ma dalla media di molte osservazioni, come se si trattasse di una singola osservazione equivalente. Questa operazione è legata al concetto statistico di sufficienza, su cui torneremo nel seguito (vedi paragrafo ***). Anche in questo caso, interviene il teorema del limite centrale che ci fa credere che questa `osservazione equivalente' può essere descritta da una gaussiana.

Stanti queste ipotesi (o ``credenze'' o ``assunzioni ragionevoli'' che dir si vogliano), tendiamo a credere che la singola osservazione (o osservazione equivalente) sarà descritta da

$\displaystyle X\sim {\cal N}(\mu,\sigma_e)\,,$

(11.2)

Applicando il teorema di Bayes, includendo il fattore di normalizzazione, abbiamo per $f(\mu)$ :

$\displaystyle f(\mu\,\vert\,x) = \frac{\frac{1}{\sqrt{2\,\pi}\,\sigma_e} \,e^{-... ...\sigma_e} \,e^{-\frac{(x_1-\mu)^2}{2\,\sigma_e^2}}f_\circ(\mu)\,\rm {d}\mu}\, .$

(11.3)

Resta ora da discutere cosa usare per $f_\circ(\mu)$ . Come si può immaginare, la presenza della prior crea molto imbarazzo fra coloro ritengono che la probabilità sia `oggettiva', e non semplicemente una descrizione del nostro stato di incertezza, nella quale i possibili valori dei numeri incerti sono flassificati in plausibilità. Simili reazioni provengono da coloro (più o meno gli stessi) che considerano l'inferenza un esercizio matematico, e non, come deve essere, una costante modifica delle nostre credenze alla luce di nuovi fatti sperimentali. Se ci si mette nell'ottica di considerare esclusivamente situazioni pratiche, di modellizzare onestamente quello che si sa e prendere i modelli `cum grano salis' non ci sono problemi seri, a parte quello di trovare le approssimazioni adatte per semplificare i conti quando i conti diventano complessi.

Facciamo un esempio pratico. Il lettore vuole misurare la temperatura della stanza dove sta in quest'istante. Se vuole effettuare la misura, vuol dire che vuole conoscerla meglio di quanto ne sa in quest'istante, ma non che lui non ne sappia assolutamente niente. Qualsiasi persona è in genere in grado di indovinare la temperatura entro qualche grado, e per questo ci si stupisce quando un termometro indica valori molto diversi da quello che ci si aspetta (tanto da far sorgere il dubbio che il termometro sia rotto!). Quindi, nell'eseguire la misura si sceglierà lo strumento adatto, tale da migliorare la propria conoscenza. Se un amico ci desse uno strumento formidabile (per le sue potenzialità) in grado di misurare la temperatura assoluta da 0 a un milione di gradi entro un errore di 5 gradi, non lo accetteremmo per l'applicazione specifica: qualsiasi cosa leggeremo sullo strumento, crederemo ancora e soltanto a quanto possiamo indovinare dalla nostra sensazione fisiologica.

Riassumendo, nelle condizioni ordinarie delle misure, l'informazione riassunta in $f_\circ(\mu)$ è molto più vaga di quella che ci può fornire lo strumento, ovvero $f_\circ(\mu)$ è molto più larga di $f(x\,\vert\,\mu)$ , letta in funzione di $\mu$ per fissato (dato). Detto ancora in altri termini: nella regione in cui la verosimiglianza varia rapidamente (``su e giu'') intorno a , la $f_\circ(\mu)$ è circa costante, mentre per valori lontani da esso, le code gaussiane della verosimiglianza rendono l'esatta forma di $f_\circ(\mu)$ irrilevante. Un esempio è mostrato in figura 11.2.

**Figura:** Esempio di prior (curve tratteggiate) molto più vaghe della verosimiglianza dello strumento (curva continua). Per questioni di resa grafica, le prior sono a meno di una irrilevante costante di normalizzazione.
$\begin{figure}\centering\epsfig{file=fig/priorvaghe.eps,clip=,width=\linewidth}\end{figure}$

Quindi, quando valgono queste condizioni, si puù modellizzare la conoscenza a priori come $f_\circ(\mu)= k$ , costante in un intervallo ``abbastanza ampio''. Per sola convenienza matematica, estendiamo tale intervallo a coprire l'intero asse reale. Ne segue che nella (11.3) la $f_\circ(\mu)= k$ , si semplifica. Abbiamo allora:

$\displaystyle f(\mu\,\vert\,x) = \frac{\frac{1}{\sqrt{2\,\pi}\,\sigma_e} \,e^{-... ...{\sqrt{2\,\pi}\,\sigma_e} \,e^{-\frac{(x-\mu)^2}{2\,\sigma_e^2}}\rm {d}\mu}\, .$

(11.4)

L'integrale di normalizzazione è pari a 1, in quanto l'integrale della funzione di Gauss rispetto a $\mu$ è uguale all'integrale rispetto a

, che sappiamo valere 1. Il risultato finale è quindi

$\displaystyle f(\mu\,\vert\,x) = \frac{1}{\sqrt{2\,\pi}\,\sigma_e}\, e^{-\frac{(\mu-x)^2}{2\,\sigma_e^2}}\, :$

(11.5)

Si noti la banale (formalmente) inversione di

e $\mu$ all'esponente della funzione di Gauss, a ricordare che ora è $\mu$ ad essere il numero incerto. Dalle note proprietà della gaussiana, arriviamo alle seguenti conclusioni.

La previsione di $\mu$ è pari a : E $[\mu]=x$ .
L'incertezza (standard) di previsione è pari a $\sigma_{\mu}=\sigma_e$ .
Il risultato può essere riportato nella forma

$\displaystyle \mu= x\pm\sigma_e,$
a meno che non lo si voglia dare sotto forma di intervallo di probabilità. In questo caso va specificato chiaramente, dindicando anche il livello di probabilità prescelto. Avremmo quindi:

Livello di Probabilità Intervallo di probabilità

(Livello di confidenza) (Intervallo di confidenza)

68.3% $x \pm \sigma_e$

90.0% $x \pm 1.65\,\sigma_e$

95.0% $x \pm 1.96\,\sigma_e$

99.0% $x \pm 2.58\,\sigma_e$

99.73% $x \pm 3\,\sigma_e$

Abbiamo usato anche le espressioni ``livello di confidenza'' e ``intervallo di confidenza'', con il significato che si dà a loro nel linguaggio naturale (e non quello astrusa della prassi statistica detta ``frequentista'').

Next: Effetto di una prior Up: Impostazione del problema. Caso Previous: Introduzione Indice

Giulio D'Agostini 2001-04-02

Livello di Probabilità	Intervallo di probabilità
(Livello di confidenza)	(Intervallo di confidenza)
68.3%	$x \pm \sigma_e$
90.0%	$x \pm 1.65\,\sigma_e$
95.0%	$x \pm 1.96\,\sigma_e$
99.0%	$x \pm 2.58\,\sigma_e$
99.73%	$x \pm 3\,\sigma_e$

Verosimiglianza normale con nota

Verosimiglianza normale con $\sigma$ nota