Criterio informativo della devianza

Il criterio informativo della devianza, DIC (deviance information criterion), è una generalizzazione di modellizzazione gerarchica del criterio informativo di Akaike (AIC, Akaike information criterion) e dello Schwarz Criterion (BIC). È particolarmente utile nei problemi di scelta di modelli bayesiani in cui le distribuzioni a posteriori dei modelli è stata ottenuta mediante simulazione MCMC. Analogamente all'AIC e al BIC, il DIC è una approssimazione asintotica che migliora ampliando la dimensione del campione di dati. È valida solamente quando la distribuzione a posteriori è approssimativamente di tipo normale multivariata.

Definiamo la devianza come $D(\theta )=-2\log(p(y|\theta ))+C\,$ , dove $y\,$ rappresenta i dati, $\theta \,$ i parametri incogniti del modello e $p(y|\theta )\,$ è la funzione di verosimiglianza. $C\,$ è una costante che può essere trascurata in tutti i calcoli cui vengono confrontati modelli differenti, e in quanto tale non richiede di essere calcolata.

Il valore atteso ${\bar {D}}=\mathbf {E} ^{\theta }[D(\theta )]$ è una misura di quanto il modello si adatta ai dati; maggiore è il valore atteso, peggiore è l'adattamento e quindi la bontà del modello.

Il numero di parametri efficace del modello è calcolato come $p_{D}={\bar {D}}-D({\bar {\theta }})$ , dove ${\bar {\theta }}$ è il valore atteso di $\theta \,$ . Maggiore è il valore atteso, più facile è per il modello adattarsi ai dati.

Il DIC è calcolato come

{\mathit {DIC}}=p_{D}+{\bar {D}}.

L'idea è quella per cui modelli con valore di DIC piccolo dovrebbero essere preferiti a quelli con DIC grande. I modelli sono penalizzati mediante il valore di ${\bar {D}}$ , il quale favorisce un buon adattamento ai dati, ma anche (in comune con AIC e BIC) mediante il numero di parametri efficace $p_{D}\,$ . poiché ${\bar {D}}$ diminuisce all'aumentare del numero di parametri, il termine $p_{D}\,$ compensa per questo effetto favorendo modelli con un numero piccolo di parametri.

Nel caso di scelta tra modelli bayesiani, il vantaggio del DIC rispetto agli altri è di essere più facilmente calcolabile da campioni generati mediante simulazioni Monte Carlo basate su catene di Markov, MCMC (Markov Chain Monte Carlo). I criteri AIC e BIC richiedono il calcolo del massimo della verosimiglianza sopra il parametro $\theta \,$ , e questo non è direttamente reso disponibile da una simulazione MCMC. Invece per calcolare il valore del DIC, semplicemente si calcola ${\bar {D}}$ come la media di $D(\theta )\,$ sopra i campioni di $\theta \,$ , mentre $D({\bar {\theta }})$ come il valore di $D\,$ calcolato sulla media dei campioni di $\theta \,$ . Il valore del DIC segue allora direttamente da queste approssimazioni. Claeskens e Hjort (2008, Cap. 3.5) mostrano che il DIC è equivalente per campionamenti estesi alla naturale versione robusta (in termini di modello) dell'AIC.

Nella derivazione del DIC, la famiglia parametrica di distribuzioni di probabilità specificata, e che genera le osservazioni future, include il modello vero. Questa assunzione non è sempre valida e in tale scenario è auspicabile considerare delle procedure di accertamento del modello. Inoltre, anche i dati osservati sono impiegati per costruire la distribuzione a posteriori e per determinare i modelli stimati. Perciò, il DIC tende a prediligere modelli sovra-adattati ai dati. Recentemente questi problemi sono stati risolti da Ando (2007) sviluppando criteri di scelta del modello bayesiano a partire da un punto di vista predittivo, BPIC (Bayesian model selection criteria).

Per evitare i problemi di sovra-adattamento del DIC, Ando (2012) ha sviluppato un criterio di selezione del modello bayesiano da un punto di vista predittivo. Il criterio è calcolato come:

{\mathit {IC}}=-2\mathbf {E} ^{\theta }[\log(p(y|\theta ))]+2p_{D}.

Il primo termine è una misura di quanto bene il modello si adatta ai dati, mentre il secondo termine è una penalità sulla complessità del modello.

Bibliografia

Tomohiro Ando, Bayesian predictive information criterion for the evaluation of hierarchical Bayesian and empirical Bayes models, in Biometrika, vol. 94, n. 2, 2007, pp. 443–458, DOI:10.1093/biomet/asm017.
Tomohiro Ando, Predictive Bayesian model selection, in American Journal of Mathematical and Management Sciences, 2012.
Claeskens, G, and Hjort, N.L. (2008). Model Selection and Model Averaging, Cambridge. Section 3.5.
Andrew Gelman, John B. Carlin, Hal. S. Stern, Donald Rubin, Bayesian Data Analysis, 2ª ed., Boca Raton, Chapman & Hall/CRC, 2004, pp. 182–184, ISBN 1-58488-388-X, MR 2027492.
van der Linde, A. (2005). "DIC in variable selection", Statistica Neerlandica, 59: 45-56. doi:10.1111/j.1467-9574.2005.00278.x
David J. Spiegelhalter, Nicola G. Best, Bradley P. Carlin e Angelika van der Linde, Bayesian measures of model complexity and fit (with discussion), in Journal of the Royal Statistical Society, Series B (Statistical Methodology), vol. 64, n. 4, ottobre 2002, pp. 583–639, DOI:10.1111/1467-9868.00353, JSTOR 3088806, MR 1979380.

Voci correlate

Criterio informativo di Akaike (AIC)
Criterio informativo bayesiano (BIC)
Criterio informativo predittivo bayesiano (BPIC)
Criterio informativo focalizzato (FIC)
Divergenza di Kullback-Leibler
Divergenza di Jensen-Shannon