New In

Коригиран AIC и последователен AIC

Акценти

  • Избор на модел

    • Коригиран AIC

    • Консистентен AIC

По желание на потребителите съществуващите команди estat ic и estimates stats вече поддържат два нови критерия за избор на модел: коригиран информационен критерий на Акайке (AICc) и последователен AIC (CAIC). Новата опция all показва всички налични информационни критерии. Новата опция df() задава степените на свобода за изчисляване на информационните критерии.

Изборът на модел е от основно значение за всеки статистически анализ, а информационните критерии са били и остават едни от най-разпространените статистически техники за избор на модел. В Stata, след всяка команда за оценка, която отчита логаритмичен likelihoood, което включва повечето команди за оценка, просто въведете

. estat ic, aiccorrected

или

. estat ic, aicconsistent

за изчисляване съответно на AICc или CAIC.

За да отчетете всичките четири информационни критерия (AIC, BIC, AICc и CAIC), въведете

. estat ic, all

Понякога при анализи, като например линейни смесени модели, се налага ръчно да посочим степените на свобода или броя на наблюденията, които да се използват при изчисляването на критерия. Можем да направим това, като посочим опциите n() и df():

. estat ic, n(500) df(10) all

Същите нови критерии и опции са достъпни и с командата estimates stats.

Нека видим как работи

Използване на информационни критерии за малък размер на извадката

Започваме с проучване на информационните критерии за набор от данни с малък размер на извадката. При такива набори от данни AICc се счита за по-надежден критерий от AIC. Сравняваме два многокомпонентни модела за вида на застраховката без и с фиктивната променлива за мястото. Фиктивната променлива site показва мястото на изследване. Включваме и условието за възраст<30 години, за да намалим размера на извадката до само 87 наблюдения.

AIC предполага, че моделът с фиктивни данни за обекта е за предпочитане, докато AICc предполага обратното.

 

Определяне на степените на свобода

Както споменахме по-рано, при напасването на линейни смесени модели с помощта на ограничена максимална правдоподобност трябва да се внимава при сравняването на моделите, особено когато спецификацията на фиксираните ефекти се различава в различните модели. Показваме как да се използват опциите n() и df(), за да се променят стойностите по подразбиране на броя на наблюденията и степените на свобода, които се използват за изчисляване на информационните критерии. Да предположим, че искаме да сравним следните два модела:

. webuse productivity
(Public capital productivity)

. mixed gsp private emp hwy water other unemp || region: || state:, reml
(output omitted)

. estimates store model1

. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
(output omitted)

. estimates store model2

Двата модела се различават както по спецификациите с фиксирани ефекти, така и по спецификациите със случайни ефекти. Поради това не е надеждно да се сравняват моделите със стандартните информационни критерии. По-долу посочваме ръчно n() и df(), за да направим моделите сравними. За всеки модел стойността на n() се изчислява чрез изваждане на броя на параметрите с фиксирани ефекти от броя на наблюденията, а df() показва броя на параметрите със случайни ефекти.

Както AIC, така и BIC показват, че вторият модел е за предпочитане.