New In

Korrigált AIC és konzisztens AIC

Kiemelt információk

  • Modell kiválasztása

    • Korrigált AIC

    • Konzisztens AIC

Közkívánatra a meglévő estat ic és estimates stats parancsok mostantól két új modellválasztási kritériumot támogatnak: a korrigált Akaike információs kritériumot (AICc) és a konzisztens AIC-t (CAIC). Az új opció all megjeleníti az összes elérhető információs kritériumot. Az új df() opció megadja a szabadságfokokat az információs kritériumok kiszámításához.

A modellválasztás alapvető fontosságú minden statisztikai elemzésben, és az információs kritériumok voltak és maradnak a modellválasztás leggyakoribb statisztikai technikái. A Stata programban minden olyan becslési parancs után, amely log likelihooodot jelent, ami a legtöbb becslési parancsot magában foglalja, egyszerűen írja be a következőt

. estat ic, aiccorrected

vagy

. estat ic, aicconsistent

az AICc, illetve a CAIC kiszámításához.

Mind a négy információs kritérium (AIC, BIC, AICc és CAIC) jelentéséhez írja be a következőt

. estat ic, all

Néha az olyan elemzésekben, mint a lineáris kevert modellek, manuálisan kell megadnunk a szabadságfokokat vagy a kritérium kiszámításához felhasználandó megfigyelések számát. Ezt az n() és df() opciók megadásával tehetjük meg:

. estat ic, n(500) df(10) all

Ugyanezek az új kritériumok és opciók a estimates stats paranccsal is elérhetők.

Lássuk, hogyan működik

Információs kritériumok alkalmazása kis mintaméret esetén

Azzal kezdjük, hogy megvizsgáljuk a kis mintaméretű adathalmazra vonatkozó információs kritériumokat. Ilyen adathalmazok esetén az AICc megbízhatóbb kritériumnak tekinthető, mint az AIC. Összehasonlítunk két multinomiális modellt a biztosítási típusra vonatkozóan a telephely dummy változó nélkül és a telephely dummy változóval. A helyszín dummy változó a vizsgálat helyszínét jelöli. Az életkor<30 feltétel is szerepel, hogy a mintanagyságot mindössze 87 megfigyelésre csökkentsük.

Az AIC azt sugallja, hogy a telephelyi dummykat tartalmazó modell előnyösebb, míg az AICc ennek ellenkezőjére utal.

 

Szabadságfokok megadása

Amint korábban említettük, a lineáris kevert modellek korlátozott maximális valószínűséggel történő illesztésekor a modellek összehasonlításakor óvatosnak kell lenni, különösen akkor, ha a rögzített hatások specifikációja különbözik a modellek között. Megmutatjuk, hogyan használhatjuk az n() és df() opciókat az információs kritériumok számításához használt megfigyelések és szabadságfokok számának alapértelmezett értékeinek módosítására. Tegyük fel, hogy a következő két modellt szeretnénk összehasonlítani:

. webuse productivity
(Public capital productivity)

. mixed gsp private emp hwy water other unemp || region: || state:, reml
(output omitted)

. estimates store model1

. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
(output omitted)

. estimates store model2

A két modell különbözik mind a fix hatású, mind a véletlen hatású specifikációkban. Ezért nem megbízható a modellek összehasonlítása a standard információs kritériumokkal. Az alábbiakban kézzel adjuk meg az n() és df() értékeket, hogy a modellek összehasonlíthatóak legyenek. Az n() értékét minden modell esetében úgy számítjuk ki, hogy a megfigyelések számából kivonjuk a fix hatású paraméterek számát, a df() pedig a véletlen hatású paraméterek számát jelzi.

Mind az AIC, mind a BIC azt jelzi, hogy a második modell előnyösebb.