Fattore di Bayes

In statistica l'impiego del fattore di Bayes è un'alternativa bayesiana al classico test di verifica d'ipotesi.^[1]^[2] Il confronto bayesiano di modelli è un metodo di scelta di modello basato su fattori di Bayes.

Definizione

La probabilità a posteriori Pr(M|D) di un modello M ottenuti i dati D è fornita dal teorema di Bayes:

\Pr(M|D)={\frac {\Pr(D|M)\Pr(M)}{\Pr(D)}}.

Il termine chiave dipendente dai dati Pr(D|M) è una verosimiglianza, e rappresenta la probabilità che i dati siano prodotti sotto l'ipotesi di validità del modello M; la sua valutazione è il punto focale del confronto bayesiano tra differenti modelli. L'evidenza del modello (ossia i dati sui quali il modello si basa) assume solitamente il ruolo di una costante di normalizzazione oppure è la funzione di partizione di un'altra inferenza, vale a dire l'inferenza dei parametri del modello M una volta ottenuti i dati D.

Consideriamo il problema di selezionare uno di due modelli statistici sulla base dei dati osservati D. La plausibilità dei due differenti modelli M₁ e M₂, parametrizzati mediante i vettori parametrici di modello $\theta _{1}$ e $\theta _{2}$ , è accertata mediante il fattore di Bayes K dato da

K={\frac {\Pr(D|M_{1})}{\Pr(D|M_{2})}}={\frac {\int \Pr(\theta _{1}|M_{1})\Pr(D|\theta _{1},M_{1})\,d\theta _{1}}{\int \Pr(\theta _{2}|M_{2})\Pr(D|\theta _{2},M_{2})\,d\theta _{2}}}

dove Pr(D|M_i) è chiamata verosimiglianza marginale per il modello i.

Se al posto del fattore di Bayes integrale è impiegata la verosimiglianza corrispondente alla stima della massima verosimiglianza del parametro di ogni modello, allora il test diventa un classico test di rapporto di verosimiglianza. Differentemente dal test di rapporto di verosimiglianza, il confronto bayesiano di modelli non dipende su qualche insieme particolare di parametri, questo in quanto esso integra sopra tutti i parametri in ogni modello (rispetto alle rispettive distribuzioni a priori). Inoltre un vantaggio dell'impiego del fattore di Bayes è che esso include automaticamente, e di fatto in maniera naturale, una penalizzazione nel caso si introduca un modello troppo strutturato.^[3] Esso tiene perciò sotto controllo il meccanismo di eccessivo adattamento. Per modelli dove un'esplicita versione della verosimiglianza non è disponibile o troppo onerosa da determinare numericamente, per la scelta del modello in uno schema bayesiano può essere impiegato il calcolo bayesiano approssimato.^[4]

Altri approcci sono:

trattare il confronto tra modelli come un problema da risolvere nell'ambito della teoria delle decisioni, calcolando il valore attesi oppure il costo della scelta di ciascun modello;
usare la lunghezza di messaggio minima (MML, 'minimum message length').

Interpretazione

Un valore di K' superiore all'unità significa che il modello M₁ è maggiormente supportato dai dati rispetto al modello M₂. Si noti che il test di verifica di ipotesi classico opera in forma asimmetrica rispetto a due ipotesi (o due modelli) alternative, preferendo una (la cosiddetta 'ipotesi nulla') e considerando l'ipotesi alternativa solo come evidenza contro la prima. Harold Jeffreys fornì una scala di paragone per l'interpretazione di K:^[5].

K	dB	bits	Robustezza dell'evidenza
< 1:1	< 0		Negativa (supporta M₂)
1:1 to 3:1	0 to 5	0 to 1.6	Di scarso significato
3:1 to 10:1	5 to 10	1.6 to 3.3	Sostanziale
10:1 to 30:1	10 to 15	3.3 to 5.0	Forte
30:1 to 100:1	15 to 20	5.0 to 6.6	Molto forte
> 100:1	> 20	> 6.6	Decisiva

La seconda colonna da i pesi di evidenza corrispondenti espressi in deciban (decimi di una potenza di 10); per chiarezza i bit corrispondenti sono mostrati nella terza colonna. Secondo I. J. Good una variazione di 1 deciban o di 1/3 di bit nel peso di evidenza (cioè una proporzione tra le possibilità di due eventi di circa 5 a 4) corrisponde circa alla capacità di un essere umano di percepire come ragionevolmente credibile un'ipotesi nell'ambito quotidiano.^[6]

L'impiego dei fattori di Bayes oppure dei classici test di ipotesi si collocano nel contesto dell'inferenza piuttosto che in quello della costruzione di decisioni in condizioni di incertezza ('decision-making under uncertainty'). Le statistiche frequentiste tracciano una forte distinzione tra queste due tecniche in quanto i classici test di ipotesi non sono coerenti in senso bayesiano. Le procedure bayesiane, inclusi i fattori di Bayes, sono coerenti, perciò non c'è alcuna necessità di tracciare una tale distinzione. L'inferenza è allora rivista come un caso speciale di costruzione di decisione ('decision-making') in condizioni di incertezza nella quale l'azione risultante consiste nel riportare un valore. Per costruire decisioni, gli statistici bayesiani possono impiegare un fattore di Bayes in combinazione con una distribuzione a priori e una funzione di perdita da associare con la scelta sbagliata. In un contesto inferenziale la funzione di perdita prenderebbe la forma di regola di punteggio ('scoring rule'). L'impiego di una funzione di punteggio logaritmica per esempio, conduce ad una utilità attesa che assume al forma della divergenza di Kullback–Leibler.

Esempio

Supponiamo di avere una variabile casuale che produce dati considerati un successo oppure un insuccesso. Vogliamo confrontare il modello M₁ per il quale la probabilità di successo è q = ½ con un altro modello M₂ dove q è completamente sconosciuta considerando una distribuzione a priori per q di tipo uniforme sull'intervallo [0,1]. Supponiamo di eseguire un campionamento di 200 valori e di trovare 115 successi ed 85 insuccessi. La verosimiglianza può essere calcolata basandosi sulla distribuzione binomiale:

{{200 \choose 115}q^{115}(1-q)^{85}}.

Così abbiamo:

P(X=115|M_{1})={200 \choose 115}\left({1 \over 2}\right)^{200}=0.005956...,\,

ma

P(X=115|M_{2})=\int _{0}^{1}{200 \choose 115}q^{115}(1-q)^{85}dq={1 \over 201}=0.004975...\,.

Quindi il quoziente è 1.197..., che corrisponde nella classificazione sopra equivale essere "di scarso significato" anche se tende molto leggermente verso M₁.

Tutto ciò si differenzia dal classico test del quoziente di verosimiglianza, il quale avrebbe trovato la stima di massima verosimiglianza per q, ossia ¹¹⁵⁄₂₀₀ = 0.575, ed usata per ottenere un quoziente di 0.1045... (piuttosto che mediare sopra tutti possibili valori di q), tendendo così verso M₂. Alternativamente, il "rapporto di scambio"^{[senza fonte]} di Edwards di due unità di verosimiglianza per grado di libertà suggerisce che $M_{2}$ è preferibile (di fatto) rispetto a $M_{1}$ , in quanto $0.1045\ldots =e^{-2.25\ldots }$ e $2.25>2$ : l'eccesso in verosimiglianza compensa per il parametro sconosciuto in $M_{2}$ .

Un test di ipotesi frequenzista di $M_{1}$ (qui considerato come un'ipotesi nulla) avrebbe prodotto un risultato più drammatico. Diciamo che M₁ possa essere rigettato ad un livello di confidenza del 5%, quindi la probabilità di ottenere 115 o più successi da una campione di 200 se q = ½ è pari 0.02 ..., ovvero pari a 0.04... in un test a due code per ottenere un valore numerico pari o superiore a 115. Si osservi che 115 è distante da 100 più di due volte la deviazione standard.

Il modello M₂ è più complesso rispetto a M₁ in quanto ha un parametro libero che gli consente di meglio modellare i dati.

Una ragione per cui l'inferenza bayesiana è stata proposta come una giustificazione teorica ed una generalizzazione del rasoio di Occam è la capacità del fattore di Bayes di tenere da conto la differenza di complessità tra due modelli riducendo gli errori di tipo I^[7].

Note

^ Goodman S, Toward evidence-based medical statistics. 1: The P value fallacy (PDF), in Ann Intern Med, vol. 130, n. 12, 1999, pp. 995–1004, PMID 10383371.
^ Goodman S, Toward evidence-based medical statistics. 2: The Bayes factor (PDF), in Ann Intern Med, vol. 130, n. 12, 1999, pp. 1005–13, PMID 10383350. URL consultato l'8 marzo 2013 (archiviato dall'url originale il 15 ottobre 2009).
^ Robert E. Kass and Adrian E. Raftery (1995) "Bayes Factors", Journal of the American Statistical Association, Vol. 90, No. 430, p. 791.
^ Toni, T.; Stumpf, M.P.H., Simulation-based model selection for dynamical systems in systems and population biology (PDF), in Bioinformatics, vol. 26, n. 1, 2009, pp. 104–10, DOI:10.1093/bioinformatics/btp619, PMC 2796821, PMID 19880371.
^ H. Jeffreys, The Theory of Probability, 3ª ed., Oxford, 1961. p. 432
^ I.J. Good, Studies in the History of Probability and Statistics. XXXVII A. M. Turing's statistical work in World War II, in Biometrika, vol. 66, n. 2, 1979, pp. 393–396, DOI:10.1093/biomet/66.2.393, MR 82c:01049.
^ Sharpening Ockham's Razor On a Bayesian Strop

Bibliografia

Gelman, A., Carlin, J., Stern, H. and Rubin, D. Bayesian Data Analysis. Chapman and Hall/CRC.(1995)
Bernardo, J. and Smith, A.F.M., Bayesian Theory. John Wiley. (1994)
Lee, P.M. Bayesian Statistics. Arnold.(1989).
Denison, D.G.T., Holmes, C.C., Mallick, B.K., Smith, A.F.M., Bayesian Methods for Nonlinear Classification and Regression. John Wiley. (2002).
Richard O. Duda, Peter E. Hart, David G. Stork (2000) Pattern classification (2nd edition), Section 9.6.5, p. 487-489, Wiley, ISBN 0-471-05669-3
Chapter 24 in Probability Theory - The logic of science by E. T. Jaynes, 1994.
David J.C. MacKay (2003) Information theory, inference and learning algorithms, CUP, ISBN 0-521-64298-1, (also available online)
Winkler, Robert, Introduction to Bayesian Inference and Decision, 2nd Edition (2003), Probabilistic. ISBN 0-9647938-4-9.

Voci correlate

Test di verifica delle informazioni di Akaike
Calcolo bayesiano approssimato
Criterio informativo della devianza (Deviance information criterion)
Scelta di modello
Criterio informativo di Bayes come definito da Schwarz
Lunghezza di messaggio minima di Wallace (Minimum Message Length, MML)

Quozienti statistici

Quoziente di disparità (Odds ratio)
Rischio relativo

Collegamenti esterni

Bayesian critique of classical hypothesis testing, su cs.ucsd.edu.
Web-based Bayes-factor calculator for t-tests, regression designs, and binomially distributed data, su pcl.missouri.edu. URL consultato l'8 marzo 2013 (archiviato dall'url originale il 7 maggio 2015).
The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay, nel capitolo 28, pag. 343, discute il confronto tra modelli bayesiani.

[Goodman1999a-1] Goodman S, Toward evidence-based medical statistics. 1: The P value fallacy (PDF), in Ann Intern Med, vol. 130, n. 12, 1999, pp. 995–1004, PMID 10383371.

[Goodman1999b-2] Goodman S, Toward evidence-based medical statistics. 2: The Bayes factor (PDF), in Ann Intern Med, vol. 130, n. 12, 1999, pp. 1005–13, PMID 10383350. URL consultato l'8 marzo 2013 (archiviato dall'url originale il 15 ottobre 2009).

[3] Robert E. Kass and Adrian E. Raftery (1995) "Bayes Factors", Journal of the American Statistical Association, Vol. 90, No. 430, p. 791.

[Toni2009b-4] Toni, T.; Stumpf, M.P.H., Simulation-based model selection for dynamical systems in systems and population biology (PDF), in Bioinformatics, vol. 26, n. 1, 2009, pp. 104–10, DOI:10.1093/bioinformatics/btp619, PMC 2796821, PMID 19880371.

[5] H. Jeffreys, The Theory of Probability, 3ª ed., Oxford, 1961. p. 432

[6] I.J. Good, Studies in the History of Probability and Statistics. XXXVII A. M. Turing's statistical work in World War II, in Biometrika, vol. 66, n. 2, 1979, pp. 393–396, DOI:10.1093/biomet/66.2.393, MR 82c:01049.

[7] Sharpening Ockham's Razor On a Bayesian Strop

[1]

[2]

[3]

[4]

[5]

[6]

[7]