На численні прохання, існуючі команди estat ic та estimates stats тепер підтримують два нових критерії вибору моделі: виправлений інформаційний критерій Акаіке (AICc) та узгоджений AIC (CAIC). Нова опція all відображає всі доступні інформаційні критерії. Новий параметр df() задає ступені свободи для обчислення інформаційних критеріїв.
Вибір моделі є фундаментальним для будь-якого статистичного аналізу, а інформаційні критерії були і залишаються одними з найпоширеніших статистичних методів для вибору моделі. У Stata після будь-якої команди оцінювання, яка повідомляє про логарифмічну ймовірність, що включає більшість команд оцінювання, просто введіть
. estat ic, aiccorrected
або
. estat ic, aicconsistent
для обчислення AICc або CAIC відповідно.
Щоб створити звіт за всіма чотирма інформаційними критеріями (AIC, BIC, AICc і CAIC), введіть
. estat ic, all
Іноді в аналізах, таких як лінійні змішані моделі, нам потрібно вручну вказати ступені свободи або кількість спостережень, які будуть використані при обчисленні критерію. Це можна зробити за допомогою опцій n() і df():
. estat ic, n(500) df(10) all
Ці ж нові критерії та опції також доступні за допомогою команди estimates stats.
Подивимося, як це працює
Використання інформаційних критеріїв для невеликого розміру вибірки
Ми почнемо з вивчення інформаційних критеріїв для набору даних з невеликим розміром вибірки. У таких наборах даних AICc вважається більш надійним критерієм, ніж AIC. Ми порівнюємо дві мультиплікативні моделі для типу страхування без фіктивної змінної site та з нею. Фіктивна змінна site вказує на місце проведення дослідження. Ми також включили умову віку <30 років, щоб зменшити розмір вибірки до 87 спостережень.

AIC свідчить про те, що модель з фіктивними ділянками є кращою, в той час як AICc свідчить про протилежне.
Визначення ступенів свободи
Як ми вже згадували раніше, при підборі лінійних змішаних моделей з використанням обмеженої максимальної правдоподібності слід бути обережним при порівнянні моделей, особливо коли специфікація фіксованих ефектів відрізняється в різних моделях. Ми покажемо, як за допомогою функцій n() та df() змінити стандартні значення кількості спостережень та ступенів свободи, які використовуються для обчислення інформаційних критеріїв. Припустимо, що ми хочемо порівняти дві наступні моделі:
. webuse productivity (Public capital productivity) . mixed gsp private emp hwy water other unemp || region: || state:, reml (output omitted) . estimates store model1 . mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml (output omitted) . estimates store model2
Обидві моделі відрізняються як за специфікацією фіксованих ефектів, так і за специфікацією випадкових ефектів. Тому порівнювати моделі за стандартними інформаційними критеріями не є надійним. Нижче ми вручну визначаємо n() та df(), щоб зробити моделі порівнянними. Для кожної моделі значення n() обчислюється шляхом віднімання кількості параметрів з фіксованими ефектами від кількості спостережень, а df() вказує на кількість параметрів з випадковими ефектами.
