À la demande générale, les commandes estat ic et estimates stats existantes prennent désormais en charge deux nouveaux critères de sélection de modèle : le critère d’information d’Akaike corrigé (AICc) et l’AIC cohérent (CAIC). La nouvelle option all affiche tous les critères d’information disponibles. La nouvelle option df() spécifie les degrés de liberté pour calculer les critères d’information.
La sélection d’un modèle est fondamentale pour toute analyse statistique, et les critères d’information ont été et restent l’une des techniques statistiques les plus courantes pour la sélection d’un modèle. Dans Stata, après toute commande d’estimation qui rapporte un log likelihoood, ce qui inclut la plupart des commandes d’estimation, il suffit de taper
. estat ic, aiccorrected
ou
. estat ic, aicconsistent
pour calculer l’AICc ou le CAIC, respectivement.
Pour afficher les quatre critères d’information (AIC, BIC, AICc et CAIC), tapez
. estat ic, all
Parfois, dans des analyses telles que les modèles mixtes linéaires, il est nécessaire de spécifier manuellement les degrés de liberté ou le nombre d’observations à utiliser dans le calcul du critère. Nous pouvons le faire en spécifiant les options n() et df() :
. estat ic, n(500) df(10) all
Ces mêmes nouveaux critères et options sont également disponibles avec la commande estimates stats.
Voyons comment cela fonctionne
Utilisation des critères d’information pour un échantillon de petite taille
Nous commençons par explorer les critères d’information pour un ensemble de données avec un petit échantillon. Dans de tels ensembles de données, l’AICc est considéré comme un critère plus fiable que l’AIC. Nous comparons deux modèles multinomiaux pour le type d’assurance sans et avec la variable nominale du site. La variable nominale site indique le site de l’étude. Nous incluons également la condition d’âge<30 pour réduire la taille de l’échantillon à seulement 87 observations.

L’AIC suggère que le modèle avec les dummies de site est préférable, alors que l’AICc suggère le contraire.
Spécification des degrés de liberté
Comme nous l’avons mentionné précédemment, lors de l’ajustement de modèles mixtes linéaires à l’aide du maximum de vraisemblance restreint, il convient de faire preuve de prudence lors de la comparaison des modèles, en particulier lorsque la spécification des effets fixes diffère d’un modèle à l’autre. Nous montrons comment utiliser les options n() et df() pour modifier les valeurs par défaut du nombre d’observations et des degrés de liberté utilisés pour le calcul des critères d’information. Supposons que nous voulions comparer les deux modèles suivants :
. webuse productivity (Public capital productivity) . mixed gsp private emp hwy water other unemp || region: || state:, reml (output omitted) . estimates store model1 . mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml (output omitted) . estimates store model2
Les deux modèles diffèrent à la fois dans leurs spécifications à effets fixes et à effets aléatoires. Par conséquent, il n’est pas fiable de comparer les modèles à l’aide des critères d’information standard. Ci-dessous, nous spécifions manuellement n() et df() pour rendre les modèles comparables. Pour chaque modèle, la valeur de n() est calculée en soustrayant le nombre de paramètres à effets fixes du nombre d’observations, et df() indique le nombre de paramètres à effets aléatoires.
