New In

Скорректированный AIC и согласованный AIC

Основные моменты

  • Выбор модели

    • Скорректированный AIC

    • Согласованный AIC

По многочисленным просьбам пользователей, существующие команды estat ic и estimates stats теперь поддерживают два новых критерия отбора моделей: скорректированный информационный критерий Акаике (AICc) и согласованный AIC (CAIC). Новая опция all отображает все доступные информационные критерии. Новая опция df() задает степени свободы для вычисления информационных критериев.

Выбор модели является основополагающим для любого статистического анализа, а информационные критерии были и остаются одними из наиболее распространенных статистических методов выбора модели. В Stata после любой команды оценки, которая выдает лог-вероятность, что включает большинство команд оценки, просто введите

. estat ic, aiccorrected

или

. estat ic, aicconsistent

для вычисления AICc или CAIC, соответственно.

Чтобы получить отчет по всем четырем информационным критериям (AIC, BIC, AICc и CAIC), введите

. estat ic, all

Иногда в таких анализах, как линейные смешанные модели, нам нужно вручную указать степени свободы или количество наблюдений, которые будут использоваться при вычислении критерия. Это можно сделать, указав опции n() и df():

. estat ic, n(500) df(10) all

Эти же новые критерии и опции доступны и в команде estimates stats.

Давайте посмотрим, как это работает

Использование информационных критериев при малом размере выборки

Мы начнем с изучения информационных критериев для наборов данных с небольшим размером выборки. Для таких наборов данных AICc считается более надежным критерием, чем AIC. Мы сравниваем две мультиномиальные модели для типа страхования без фиктивной переменной site и с ней. Фиктивная переменная site указывает на место проведения исследования. Мы также включаем условие «возраст<30», чтобы уменьшить размер выборки до 87 наблюдений.

AIC указывает на то, что модель с фиктивными параметрами участка предпочтительнее, в то время как AICc говорит об обратном.

 

Указание степеней свободы

Как мы уже говорили, при подгонке линейных смешанных моделей с использованием ограниченного максимального правдоподобия необходимо соблюдать осторожность при сравнении моделей, особенно если спецификация фиксированных эффектов в разных моделях отличается. Мы покажем, как с помощью опций n() и df() изменить значения по умолчанию числа наблюдений и степеней свободы, которые используются для вычисления информационных критериев. Предположим, мы хотим сравнить две следующие модели:

. webuse productivity
(Public capital productivity)

. mixed gsp private emp hwy water other unemp || region: || state:, reml
(output omitted)

. estimates store model1

. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
(output omitted)

. estimates store model2

Эти две модели различаются как по спецификациям с фиксированными эффектами, так и по спецификациям со случайными эффектами. Поэтому сравнивать модели с помощью стандартных информационных критериев ненадежно. Ниже мы вручную задаем n() и df(), чтобы сделать модели сопоставимыми. Для каждой модели значение n() вычисляется путем вычитания числа параметров с фиксированными эффектами из числа наблюдений, а df() указывает на число параметров со случайными эффектами.

И AIC, и BIC указывают на то, что вторая модель предпочтительнее.