New In

Opravený AIC a konzistentní AIC

Nejdůležitější informace

  • Výběr modelu

    • Opravená hodnota AIC

    • Konzistentní AIC

Na přání uživatelů podporují stávající příkazy estat ic a estimates stats dvě nová kritéria pro výběr modelu: korigované Akaikeho informační kritérium (AICc) a konzistentní AIC (CAIC). Nová volba all zobrazuje všechna dostupná informační kritéria. Nová volba df() určuje stupně volnosti pro výpočet informačních kritérií.

Výběr modelu je základem každé statistické analýzy a informační kritéria patřila a stále patří k nejběžnějším statistickým technikám pro výběr modelu. V programu Stata stačí po jakémkoli příkazu odhadu, který vykazuje logaritmický likelihoood, což zahrnuje většinu příkazů odhadu, zadat příkaz

. estat ic, aiccorrected

nebo

. estat ic, aicconsistent

pro výpočet AICc, resp. CAIC.

Chcete-li zobrazit všechna čtyři informační kritéria (AIC, BIC, AICc a CAIC), zadejte následující příkaz

. estat ic, all

V analýzách, jako jsou lineární smíšené modely, musíme někdy ručně zadat stupně volnosti nebo počet pozorování, které se mají použít při výpočtu kritéria. To můžeme provést zadáním voleb n() a df():

. estat ic, n(500) df(10) all

Stejná nová kritéria a možnosti jsou k dispozici také v příkazu estimates stats.

Podívejme se, jak to funguje

Použití informačních kritérií pro malý vzorek

Začneme zkoumáním informačních kritérií pro soubor dat s malou velikostí vzorku. V takových souborech dat je AICc považováno za spolehlivější kritérium než AIC. Porovnáváme dva multinomiální modely pro typ pojištění bez a s dummy proměnnou místa. Fiktivní proměnná site označuje místo studie. Zahrnujeme také podmínku věku<30 let, abychom zmenšili velikost vzorku na pouhých 87 pozorování.

AIC naznačuje, že model s figurínami místa je preferován, zatímco AICc naznačuje opak.

 

Zadání stupňů volnosti

Jak jsme již zmínili, při sestavování lineárních smíšených modelů pomocí omezené maximální věrohodnosti je třeba dbát na porovnávání modelů, zejména pokud se specifikace fixních efektů v jednotlivých modelech liší. Ukážeme si, jak pomocí voleb n() a df() upravit výchozí hodnoty počtu pozorování a stupňů volnosti, které se používají pro výpočet informačních kritérií. Předpokládejme, že chceme porovnat následující dva modely:

. webuse productivity
(Public capital productivity)

. mixed gsp private emp hwy water other unemp || region: || state:, reml
(output omitted)

. estimates store model1

. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
(output omitted)

. estimates store model2

Oba modely se liší jak ve specifikacích s pevnými, tak s náhodnými efekty. Proto není spolehlivé porovnávat modely pomocí standardních informačních kritérií. Níže ručně specifikujeme n() a df(), aby bylo možné modely porovnat. Pro každý model se hodnota n() vypočítá odečtením počtu parametrů fixních efektů od počtu pozorování a df() udává počet parametrů náhodných efektů.

AIC i BIC ukazují, že druhý model je vhodnější.