Közkívánatra a meglévő estat ic és estimates stats parancsok mostantól két új modellválasztási kritériumot támogatnak: a korrigált Akaike információs kritériumot (AICc) és a konzisztens AIC-t (CAIC). Az új opció all megjeleníti az összes elérhető információs kritériumot. Az új df() opció megadja a szabadságfokokat az információs kritériumok kiszámításához.
A modellválasztás alapvető fontosságú minden statisztikai elemzésben, és az információs kritériumok voltak és maradnak a modellválasztás leggyakoribb statisztikai technikái. A Stata programban minden olyan becslési parancs után, amely log likelihooodot jelent, ami a legtöbb becslési parancsot magában foglalja, egyszerűen írja be a következőt
. estat ic, aiccorrected
vagy
. estat ic, aicconsistent
az AICc, illetve a CAIC kiszámításához.
Mind a négy információs kritérium (AIC, BIC, AICc és CAIC) jelentéséhez írja be a következőt
. estat ic, all
Néha az olyan elemzésekben, mint a lineáris kevert modellek, manuálisan kell megadnunk a szabadságfokokat vagy a kritérium kiszámításához felhasználandó megfigyelések számát. Ezt az n() és df() opciók megadásával tehetjük meg:
. estat ic, n(500) df(10) all
Ugyanezek az új kritériumok és opciók a estimates stats paranccsal is elérhetők.
Lássuk, hogyan működik
Információs kritériumok alkalmazása kis mintaméret esetén
Azzal kezdjük, hogy megvizsgáljuk a kis mintaméretű adathalmazra vonatkozó információs kritériumokat. Ilyen adathalmazok esetén az AICc megbízhatóbb kritériumnak tekinthető, mint az AIC. Összehasonlítunk két multinomiális modellt a biztosítási típusra vonatkozóan a telephely dummy változó nélkül és a telephely dummy változóval. A helyszín dummy változó a vizsgálat helyszínét jelöli. Az életkor<30 feltétel is szerepel, hogy a mintanagyságot mindössze 87 megfigyelésre csökkentsük.

Az AIC azt sugallja, hogy a telephelyi dummykat tartalmazó modell előnyösebb, míg az AICc ennek ellenkezőjére utal.
Szabadságfokok megadása
Amint korábban említettük, a lineáris kevert modellek korlátozott maximális valószínűséggel történő illesztésekor a modellek összehasonlításakor óvatosnak kell lenni, különösen akkor, ha a rögzített hatások specifikációja különbözik a modellek között. Megmutatjuk, hogyan használhatjuk az n() és df() opciókat az információs kritériumok számításához használt megfigyelések és szabadságfokok számának alapértelmezett értékeinek módosítására. Tegyük fel, hogy a következő két modellt szeretnénk összehasonlítani:
. webuse productivity (Public capital productivity) . mixed gsp private emp hwy water other unemp || region: || state:, reml (output omitted) . estimates store model1 . mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml (output omitted) . estimates store model2
A két modell különbözik mind a fix hatású, mind a véletlen hatású specifikációkban. Ezért nem megbízható a modellek összehasonlítása a standard információs kritériumokkal. Az alábbiakban kézzel adjuk meg az n() és df() értékeket, hogy a modellek összehasonlíthatóak legyenek. Az n() értékét minden modell esetében úgy számítjuk ki, hogy a megfigyelések számából kivonjuk a fix hatású paraméterek számát, a df() pedig a véletlen hatású paraméterek számát jelzi.
