New In

Korrigierter AIC und konsistenter AIC

Höhepunkte

  • Auswahl des Modells

    • Korrigierter AIC

    • Konsistenter AIC

Auf vielfachen Wunsch unterstützen die bestehenden Befehle estat ic und estimates stats jetzt zwei neue Kriterien für die Modellauswahl: das korrigierte Akaike-Informationskriterium (AICc) und das konsistente AIC (CAIC). Die neue Option all zeigt alle verfügbaren Informationskriterien an. Die neue Option df() gibt die Freiheitsgrade an, mit denen die Informationskriterien berechnet werden.

Die Modellauswahl ist für jede statistische Analyse von grundlegender Bedeutung, und Informationskriterien waren und sind einige der gängigsten statistischen Techniken für die Modellauswahl. In Stata geben Sie nach jedem Schätzungsbefehl, der eine log Likelihood ausgibt, was die meisten Schätzungsbefehle einschließt, einfach

. estat ic, aiccorrected

oder

. estat ic, aicconsistent

um AICc bzw. CAIC zu berechnen.

Um alle vier Informationskriterien (AIC, BIC, AICc und CAIC) anzugeben, geben Sie ein

. estat ic, all

Bei Analysen wie linearen gemischten Modellen ist es manchmal erforderlich, die Freiheitsgrade oder die Anzahl der Beobachtungen, die für die Berechnung des Kriteriums verwendet werden sollen, manuell festzulegen. Dies kann durch die Angabe der Optionen n() und df() erfolgen:

. estat ic, n(500) df(10) all

Die gleichen neuen Kriterien und Optionen sind auch mit dem Befehl estimates stats verfügbar.

Wir wollen sehen, wie es funktioniert

Verwendung von Informationskriterien für eine kleine Stichprobengröße

Wir beginnen mit der Untersuchung von Informationskriterien für einen Datensatz mit einem kleinen Stichprobenumfang. Bei solchen Datensätzen gilt AICc als zuverlässigeres Kriterium als AIC. Wir vergleichen zwei multinomiale Modelle für den Versicherungstyp ohne und mit der Standort-Dummy-Variable. Die Dummy-Variable Standort gibt den Studienort an. Wir schließen auch die Bedingung Alter<30 ein, um die Stichprobengröße auf nur 87 Beobachtungen zu reduzieren.

Der AIC legt nahe, dass das Modell mit den Standortdummies bevorzugt wird, während der AICc das Gegenteil nahelegt.

 

Angabe von Freiheitsgraden

Wie bereits erwähnt, ist bei der Anpassung linearer gemischter Modelle mit eingeschränkter maximaler Wahrscheinlichkeit Vorsicht geboten, wenn Modelle verglichen werden, insbesondere wenn sich die Spezifikation der festen Effekte zwischen den Modellen unterscheidet. Wir zeigen, wie man die Optionen n() und df() verwendet, um die Standardwerte für die Anzahl der Beobachtungen und Freiheitsgrade zu ändern, die für die Berechnung der Informationskriterien verwendet werden. Angenommen, wir wollen die folgenden zwei Modelle vergleichen:

. webuse productivity
(Public capital productivity)

. mixed gsp private emp hwy water other unemp || region: || state:, reml
(output omitted)

. estimates store model1

. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
(output omitted)

. estimates store model2

Die beiden Modelle unterscheiden sich sowohl in ihren Spezifikationen mit festen Effekten als auch mit zufälligen Effekten. Daher ist es nicht zuverlässig, Modelle mit den Standard-Informationskriterien zu vergleichen. Im Folgenden spezifizieren wir n() und df() manuell, um die Modelle vergleichbar zu machen. Für jedes Modell wird der Wert von n() durch Subtraktion der Anzahl der Parameter mit festen Effekten von der Anzahl der Beobachtungen berechnet, und df() gibt die Anzahl der Parameter mit zufälligen Effekten an.

Sowohl AIC als auch BIC zeigen, dass das zweite Modell vorzuziehen ist.