next up previous contents
Next: Caso generale di inferenza Up: Caso generale di inferenza Previous: Combinazione di misure indipendenti   Indice

pzd100Uso della prior coniugata Beta

Finora abbiamo basato l'inferenza su una prior uniforme che, come detto e come ripeteremo ancora, va più che bene per la maggior parte delle applicazioni `tranquille'. Come abbiamo discusso nel caso dei problemi con verosimiglianza gaussiana, la difficoltà nell'introdurre delle prior che corrispondano all'effettivo stato di informazione risiede nelle complicazioni matematiche che ne possono scaturire. Un trucco per semplificare i conti è quello di modellizzare le prior con una funzione formalmente simile alla verosimiglianza (vista come funzione matematica del parametro che si vuole inferire). Si parla allora di distribuzioni coniugate. Abbiamo già utilizzato questo trucco per modellizzare la prior in modo gaussiano quando la verosimiglianza è anch'essa gaussiana.

Nel caso caso di verosimiglianza binomiale, distribuzione coniugata Beta (vedi paragrafo 8.15.1) è particolarmente conveniente in quanto, per opportune scelte dei suoi due soli parametri, tale distribuzione può assumere una interessante varità di forme (vedi figura 8.14). Infatti, a parte il fattore di normalizzazione abbiamo:

$\displaystyle f(p\,\vert\,n,n,f_\circ=$Beta$\displaystyle (r,s))$ $\displaystyle \propto$ $\displaystyle p^x\,(1-p)^{n-x} \cdot
p^{r-1}\,(1-p)^{s-1}$  
  $\displaystyle \propto$ $\displaystyle p^{x+r-1}\,(1-p)^{n-x+s-1} \,,$  

ovvero si ottiene una nuova funzione Beta in cui $ r$ viene incrementato del numero dei successi e $ s$ del numero degli insuccessi:
$\displaystyle p$ $\displaystyle \sim$ Beta$\displaystyle (r+x, s+n-x)$ (12.33)
E$\displaystyle (p)$ $\displaystyle =$ $\displaystyle \frac{r+x}{r+s+n}$ (12.34)
Var$\displaystyle (p)$ $\displaystyle =$ $\displaystyle \frac{(r+x)\cdot(s+n-x)}
{(r+s+1+n)\cdot(r+s+n)^2}$ (12.35)
  $\displaystyle =$ E$\displaystyle (p)\cdot\frac{s+n-x}{(r+s+1+n)\cdot(r+s+n)} \,.$ (12.36)

Per $ s=r=1$ la beta si riduce ad una distribuzione uniforme, riottenendo le (12.12) e (12.14).

Ad esempio, se le prior sono tali da farci credere che $ p$ debba essere intorno a 1/2 con un'incertezza del 20%, ovvero $ 1/5$, dalle (8.37) e (8.38), abbiamo:

$\displaystyle \left\{\begin{array}{lll} \frac{r}{r+s} & = & \frac{1}{2} \\  \fr...
...}{5}\frac{1}{2}\right)^2 \end{array} \right. \ \ \Longrightarrow r = s = 12 \,.$ (12.37)

In altre parole, lo stato di iniziale informazione che ci fa ritenere $ p\approx 0.5\pm 0.1$ è lo stesso che si acquisirebbe da una dozzina di successi e una dozzina di insuccessi partendo da un precedente stato di informazione che ci faceva ritenere tutti i valori di $ p$ ugualmente possibili. Se ora facciamo due prove e vengono due successi, lo stato di conoscenza su $ p$ cambia, ma non tanto da farci ritenere che che $ p$ sia molto prossimo a 1, come si otterrebbe ongenuamente dalla frequenza relativa di successi. Si ottiene infatti
E$\displaystyle (p)$ $\displaystyle =$ $\displaystyle \frac{2+12}{2+24} = \frac{14}{26} = ...$ (12.38)
$\displaystyle \sigma(p)$ $\displaystyle =$ $\displaystyle \sqrt{\frac{\dots }{\ldots}}$ (12.39)

Come si vede, questa informazione empirica non ci fa cambiare sostanzialmente la nostra opinione sulla probabilità del prossimo successo, come è giusto che debba essere.


next up previous contents
Next: Caso generale di inferenza Up: Caso generale di inferenza Previous: Combinazione di misure indipendenti   Indice
Giulio D'Agostini 2001-04-02