New In

AIC corectat și AIC consistent

Repere

  • Selecția modelului

    • AIC corectat

    • AIC consecvent

La cererea populară, comenzile existente estat ic și estimates stats suportă acum două noi criterii de selecție a modelelor: criteriul informațional Akaike corectat (AICc) și AIC consistent (CAIC). Noua opțiune all afișează toate criteriile de informare disponibile. Noua opțiune df() specifică gradele de libertate pentru calcularea criteriilor de informare.

Selectarea modelului este fundamentală pentru orice analiză statistică, iar criteriile de informare au fost și rămân unele dintre cele mai comune tehnici statistice pentru selectarea modelului. În Stata, după orice comandă de estimare care raportează un log likelihoood, ceea ce include majoritatea comenzilor de estimare, este suficient să tastați

. estat ic, aiccorrected

sau

. estat ic, aicconsistent

pentru a calcula AICc, respectiv CAIC.

Pentru a raporta toate cele patru criterii de informare (AIC, BIC, AICc și CAIC), tastați

. estat ic, all

Uneori, în analize cum ar fi modelele mixte liniare, trebuie să specificăm manual gradele de libertate sau numărul de observații care urmează să fie utilizate în calculul criteriului. Putem face acest lucru prin specificarea opțiunilor n() și df():

. estat ic, n(500) df(10) all

Aceleași criterii și opțiuni noi sunt disponibile și cu comanda estimates stats.

Să vedem cum funcționează

Utilizarea criteriilor de informare pentru un eșantion de dimensiuni mici

Începem prin a explora criteriile de informare pentru un set de date cu un eșantion de dimensiuni mici. În astfel de seturi de date, AICc este considerat un criteriu mai fiabil decât AIC. Comparăm două modele multinomiale pentru tipul de asigurare, fără și cu variabila fictivă de amplasament. Variabila fictivă site indică locul de studiu. De asemenea, includem condiția de vârstă<30 de ani pentru a reduce dimensiunea eșantionului la numai 87 de observații.

AIC sugerează că se preferă modelul cu variabilele fictive ale locului, în timp ce AICc sugerează contrariul.

 

Specificarea gradelor de libertate

După cum am menționat mai devreme, atunci când se adaptează modelele mixte liniare folosind probabilitatea maximă restrânsă, trebuie să se acorde atenție la compararea modelelor, în special atunci când specificația efectelor fixe diferă de la un model la altul. Arătăm cum să folosim opțiunile n() și df() pentru a modifica valorile implicite ale numărului de observații și ale gradelor de libertate care sunt utilizate pentru calcularea criteriilor de informare. Să presupunem că dorim să comparăm următoarele două modele:

. webuse productivity
(Public capital productivity)

. mixed gsp private emp hwy water other unemp || region: || state:, reml
(output omitted)

. estimates store model1

. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
(output omitted)

. estimates store model2

Cele două modele diferă atât în ceea ce privește specificațiile cu efecte fixe, cât și cele cu efecte aleatorii. Prin urmare, nu este fiabilă compararea modelelor cu ajutorul criteriilor standard de informare. Mai jos, vom specifica manual n() și df() pentru a face modelele comparabile. Pentru fiecare model, valoarea lui n() este calculată prin scăderea numărului de parametri cu efecte fixe din numărul de observații, iar df() indică numărul de parametri cu efecte aleatorii.

Atât AIC, cât și BIC indică faptul că cel de-al doilea model este preferabil.