Neu in

Null-inflationäres geordnetes Logit-Modell

Der neue Stata-Befehl ziologit passt null-inflationierte geordnete Logit-Modelle an.
Die geordnete Logit-Regression wird verwendet, um geordnete kategoriale Antworten zu modellieren, wie z. B. die Symptomschwere, die als keine, leicht, mittel oder schwer aufgezeichnet wurde. Größere Werte solcher geordneten Ergebnisse stellen höhere Stufen dar, aber der numerische Wert ist irrelevant.
In manchen Situationen werden mehr Nullen (oder mehr Werte in der niedrigsten Kategorie) in den Daten beobachtet, als bei einem herkömmlichen geordneten Logit-Modell zu erwarten wäre. Eine Null könnte das Nichtvorhandensein eines Merkmals darstellen, während die übrigen Werte steigende Werte des Merkmals repräsentieren. Es können viele Nullen beobachtet werden, einige, weil das Individuum das Merkmal nicht hat, und einige, weil ein Individuum das Merkmal hat, aber die niedrigste Stufe aufweist. Zum Beispiel,
In einer Studie zum Alkoholkonsum geben einige Personen keinen Konsum an, weil sie nie Alkohol trinken, während andere möglicherweise keinen Alkoholkonsum angeben, weil sie im Erhebungszeitraum nicht getrunken haben.
In einer klinischen Studie mit einer Behandlung, die Tumore schrumpfen soll, stellen die Ergebnisse keine Verbesserung, teilweises Ansprechen oder vollständiges Ansprechen dar. Eine Person kann keine Verbesserung zeigen, weil der Tumor gegen die Behandlung resistent ist oder weil der Tumor behandelbar war, aber zum Zeitpunkt der Messung nicht geschrumpft ist. Die Unterscheidung ist wichtig, weil behandelbare Tumore gute Kandidaten für eine höhere Dosis sind.
In solchen Kontexten können Sie ein Zero-Inflated-Ordered-Logit-Modell (ZIOL) verwenden. ZIOL-Modelle gehen davon aus, dass die niedrigstwertigen Ergebnisse sowohl aus einem Logit-Modell als auch aus einem geordneten Logit-Modell stammen, wobei für jedes Modell unterschiedliche Sätze von Prädiktoren zulässig s

Höhepunkte

  • Modellieren Sie ordinale Daten mit einer Überfülle von Antworten in der niedrigsten Kategorie
  • Verwenden Sie ein Logit-Modell zur Identifizierung der Null-Inflation und ein geordnetes Logit-Modell für die ordinale Antwort
  • Verwenden Sie einen potenziell unterschiedlichen Satz von Prädiktoren für das Logit- und das geordnete Logit-Modell
  • Einfache Interpretation der Ergebnisse mit Hilfe von Odds Ratios und marginalen Wahrscheinlichkeiten
  • Unterstützung für Bayes’sche Schätzungen
  • Robuste, cluster-robuste und Bootstrap-Standardfehler
  • Unterstützung komplexer Umfragedesigns

Zeigen Sie, wie es funktioniert

Zeigen Sie, wie es funktioniert

. use https://www.stata-press.com/data/r17/tobacco

Der interessierende Outcome, Tabak, stellt den täglichen Zigarettenkonsum als ordinale Antwort mit vier Stufen dar:

. codebook tobacco

tobacco Tobacco usage
Type: Numeric (byte)
Label: tobaclbl
Range: [0,3] Units: 1
Unique values: 4 Missing .: 0/15,000
Tabulation: Freq. Numeric Label
9,469 0 0 cigarettes
3,806 1 1–7 cigarettes/day
1,050 2 8–12 cigarettes/day
675 3 >12 cigarettes/day

Mehr als die Hälfte der Befragten gab keinen Zigarettenkonsum an. Wir vermuten, dass diese Befragten zu einer von zwei Gruppen gehören: Nichtraucher und Möchtegern-Raucher ohne aktuelle Rauchaktivität. Eine traditionelle geordnete Logit-Regression kann das Niveau des Zigarettenkonsums unter Rauchern modellieren, aber sie kann nicht zwischen den beiden Gruppen von Befragten unterscheiden, die keinen Zigarettenkonsum angaben. Das ZIOL-Modell führt das Konzept der Anfälligkeit für das Rauchen ein, wobei Raucher (sowohl aktive als auch Möchtegern-Raucher) anfällig für das Rauchen sind, während echte Nichtraucher nicht anfällig für das Rauchen sind. Um die Möglichkeit echter Nichtraucher zu berücksichtigen, wählen wir das ZIOL-Modell anstelle des traditionellen geordneten Logit-Modells.
Wir werden ziologit verwenden, um gleichzeitig das Niveau des Zigarettenkonsums und die Wahrscheinlichkeit, Raucher zu sein, zu modellieren. Um die Höhe des Zigarettenkonsums zu modellieren, nehmen wir Prädiktoren in den ziologit-Befehl direkt nach der abhängigen Variable tobacco auf. Zur Modellierung der Wahrscheinlichkeit, Raucher zu sein, werden Prädiktoren in die Option inflate() aufgenommen, die so genannt wird, weil sie zur Modellierung der Null-Inflation verwendet wird. Die Option inflate() ist erforderlich, weil ihr Ausschluss der Anpassung eines traditionellen geordneten Logit-Modells gleichkäme.
Angenommen, wir wollen das Niveau des Zigarettenkonsums auf die Bildungsjahre (Bildung), das Einkommen in 10.000 $ (Einkommen) und das Geschlecht (weiblich) regressieren, während wir die Wahrscheinlichkeit, Raucher zu sein, mit den unabhängigen Variablen Bildung und Einkommen sowie einer Variable modellieren wollen, die angibt, ob einer der Elternteile des Befragten rauchte (Elternteil).
Wir könnten dieses Modell mit dem folgenden Befehl anpassen:

. ziologit tobacco education income i.female, inflate(income education i.parent)

Iteration 0:   log likelihood = -15977.364  (not concave)
Iteration 1:   log likelihood =  -13149.83  (not concave)
Iteration 2:   log likelihood = -12467.245
Iteration 3:   log likelihood = -11039.218
Iteration 4:   log likelihood = -9929.2298
Iteration 5:   log likelihood = -9715.1143
Iteration 6:   log likelihood = -9703.2464
Iteration 7:   log likelihood = -9703.2168
Iteration 8:   log likelihood = -9703.2168

Zero-inflated ordered logit regression                 Number of obs =  15,000
                                                       Wald chi2(3)  = 3147.70
Log likelihood = -9703.2168                            Prob > chi2   =  0.0000

tobacco Coefficient Std. err. z P>|z| [95% conf. interval]
tobacco
education .5090816 .0094838 53.68 0.000 .4904938 .5276695
income .583636 .0114401 51.02 0.000 .5612139 .6060581
female
Female -.5307721 .0580736 -9.14 0.000 -.6445943 -.4169499
inflate
income -.1279677 .00705 -18.15 0.000 -.1417856 -.1141499
education -.1412459 .0049693 -28.42 0.000 -.1509855 -.1315062
parent
Smoking 1.187864 .0529432 22.44 0.000 1.084097 1.29163
_cons 2.617219 .1156891 22.62 0.000 2.390473 2.843966
/cut1 5.85957 .104449 5.654853 6.064286
/cut2 11.14187 .1945483 10.76056 11.52318
/cut3 14.3632 .2495117 13.87417 14.85224

Die Ergebnistabelle besteht aus drei Abschnitten. Der erste Abschnitt mit der Bezeichnung „Tabak“ enthält Koeffizienten aus dem geordneten Logit-Modell für die Höhe des Zigarettenkonsums. Der zweite Abschnitt, beschriftet mit inflate, enthält Koeffizienten aus dem Logit-Modell für die Wahrscheinlichkeit, Raucher zu sein. Der dritte Abschnitt enthält die Cutpoints aus dem geordneten Logit-Modell.
Um die ersten beiden Abschnitte der Ergebnistabelle zu interpretieren, können die Koeffizienten potenziert und als Odds Ratio mit der Option oder angegeben werden.

. ziologit, or

Zero-inflated ordered logit regression                 Number of obs =  15,000
                                                       Wald chi2(3)  = 3147.70
Log likelihood = -9703.2168                            Prob > chi2   =  0.0000

tobacco Odds ratio Std. err. z P>|z| [95% conf. interval]
tobacco
education 1.663763 .0157788 53.68 0.000 1.633122 1.694978
income 1.792544 .0205068 51.02 0.000 1.752799 1.833191
female
Female .5881507 .034156 -9.14 0.000 .5248755 .659054
inflate
income .8798818 .0062032 -18.15 0.000 .8678073 .8921242
education .8682758 .0043147 -28.42 0.000 .8598602 .8767738
parent
Smoking 3.280066 .1736572 22.44 0.000 2.956768 3.638714
_cons 13.69758 1.584661 22.62 0.000 10.91866 17.18378
/cut1 5.85957 .104449 5.654853 6.064286
/cut2 11.14187 .1945483 10.76056 11.52318
/cut3 14.3632 .2495117 13.87417 14.85224
Note: Estimates are transformed only in the first 2 equations. Note: _cons estimates baseline odds.

Hier sehen wir, dass ein Anstieg des Jahreseinkommens um 10.000 $ die Wahrscheinlichkeit, Raucher zu sein, um den Faktor 0,88 (12 % Rückgang der Wahrscheinlichkeit) verringert, aber bei Rauchern die Wahrscheinlichkeit eines höheren Zigarettenkonsums um den Faktor 1,79 (79 % Anstieg der Wahrscheinlichkeit) erhöht. Dies deutet darauf hin, dass wohlhabendere Personen weniger wahrscheinlich rauchen, aber wenn sie sich zum Rauchen entschließen, neigen sie dazu, mehr Zigaretten zu rauchen.
Aber was bedeuten diese Ergebnisse wirklich in Bezug auf die Wahrscheinlichkeit, ein anderes Rauchverhalten zu zeigen? Mit den Parametern unseres Modells können wir mit Hilfe von Margen verschiedene Fragen beantworten. Angenommen, wir interessieren uns für den Zusammenhang von Zigarettenkonsum und Einkommensniveau. Im Folgenden schätzen wir die Wahrscheinlichkeiten für jedes Niveau des Zigarettenkonsums bei einem Jahreseinkommen von 0 $, 50.000 $, 100.000 $, 150.000 $ und 200.000 $.

. margins, at(income=(0(5)20))

Predictive margins                                       Number of obs = 15,000
Model VCE: OIM

1._predict : Pr(tobacco=0), predict(pmargin outcome(0))
2._predict : Pr(tobacco=1), predict(pmargin outcome(1))
3._predict : Pr(tobacco=2), predict(pmargin outcome(2))
4._predict : Pr(tobacco=3), predict(pmargin outcome(3))

1._at: income =  0
2._at: income =  5
3._at: income = 10
4._at: income = 15
5._at: income = 20

Delta-method
Margin std. err. z P>|z| [95% conf. interval]
_predict#_at
1 1 .7428698 .0044443 167.15 0.000 .7341591 .7515805
1 2 .6190759 .0038733 159.83 0.000 .6114843 .6266675
1 3 .5168462 .0052057 99.29 0.000 .5066433 .5270492
1 4 .526699 .0092168 57.15 0.000 .5086344 .5447636
1 5 .6340465 .0138387 45.82 0.000 .6069232 .6611697
2 1 .2121431 .0034296 61.86 0.000 .2054211 .2188651
2 2 .2792459 .0033861 82.47 0.000 .2726092 .2858826
2 3 .3042245 .0040212 75.65 0.000 .2963431 .312106
2 4 .2226386 .0050478 44.11 0.000 .2127452 .232532
2 5 .0633686 .0047963 13.21 0.000 .0539681 .0727692
3 1 .0372614 .0014098 26.43 0.000 .0344983 .0400245
3 2 .0737865 .0019981 36.93 0.000 .0698702 .0777027
3 3 .1146585 .0029075 39.44 0.000 .1089599 .1203572
3 4 .1351544 .0041403 32.64 0.000 .1270395 .1432693
3 5 .138638 .0052133 26.59 0.000 .1284201 .1488559
4 1 .0077257 .0005647 13.68 0.000 .0066189 .0088324
4 2 .0278917 .0011614 24.01 0.000 .0256153 .030168
4 3 .0642707 .002228 28.85 0.000 .0599038 .0686376
4 4 .115508 .0045623 25.32 0.000 .1065661 .12445
4 5 .1639469 .0085572 19.16 0.000 .147175 .1807188

Hier berechnen wir die erwarteten Wahrscheinlichkeiten für jedes Niveau des Zigarettenkonsums bei einem Jahreseinkommen von $0, $50.000, $100.000, $150.000 und $200.000.
In der Ausgabetabelle gibt es viele Kombinationen von Einkommens- und Zigarrenverbrauchsniveaus. In solchen Fällen ist es effektiver, die Ergebnisse grafisch darzustellen. Wir können die erwarteten Wahrscheinlichkeiten über alle Einkommen sniveaus visualisieren, indem wir marginsplot verwenden.

Die Wahrscheinlichkeit, 0 Zigaretten zu rauchen, nimmt mit steigendem Jahreseinkommen bis $100.000 ab, dann steigt die Wahrscheinlichkeit allmählich wieder an. Die Wahrscheinlichkeit, 1-7 Zigaretten/Tag zu rauchen, ist bei einem Jahreseinkommen von $100.000 am höchsten und bei einem Jahreseinkommen von $200.000 am niedrigsten.
Nachdem wir die Gesamtwahrscheinlichkeit jedes Ergebnisses betrachtet haben, wollen wir den Zusammenhang zwischen dem Einkommen und der Anfälligkeit für das Rauchen untersuchen. Wir verwenden Spannen, um ps, die Wahrscheinlichkeit der Anfälligkeit, bei denselben fünf Einkommen sniveaus zu berechnen.

. quietly margins, predict(ps) at(income=(0(5)20))

. marginsplot

Vier Fünftel der Befragten mit einem Einkommen von Null sind entweder Raucher oder würden gerne rauchen. Die Wahrscheinlichkeit, Raucher zu sein, nimmt mit steigendem Einkommen ab, wobei etwas mehr als ein Drittel der Befragten zum Rauchen neigt, wenn das Einkommen 200.000 $ pro Jahr beträgt. Dies unterstützt die Interpretation, dass das Einkommen als Proxy für das Gesundheitsbewusstsein fungieren kann.
Als Nächstes verwenden wir Ränder, um uns auf Personen zu konzentrieren, die anfällig für das Rauchen sind. Durch die Angabe der Statistik pcond1 zusammen mit jeder Ergebnisstufe berechnen wir die Wahrscheinlichkeit jeder Stufe des Rauchens, bedingt durch die Anfälligkeit. Wie zuvor werden die Berechnungen auf fünf Einkommen sniveaus durchgeführt und mit marginsplot grafisch dargestellt.

. quietly margins, predict(pcond1 outcome(0)) predict(pcond1 outcome(1))
 predict(pcond1 outcome(2)) predict(pcond1 outcome(3)) at(income=(0(5)20))

Weit über die Hälfte der potenziellen Raucher gibt bei einem Jahreseinkommen von Null einen Zigarettenkonsum von 0 an, und diejenigen, die Zigaretten konsumieren, rauchen höchstwahrscheinlich nur ein paar Zigaretten pro Tag. Mit steigendem Einkommen sinkt die Wahrscheinlichkeit von 0-Konsum, wobei praktisch alle Raucher bei einem Jahreseinkommen von 200.000 $ einen positiven Zigarettenkonsum aufweisen dürften. Ein höheres Jahreseinkommen ist mit einer höheren Wahrscheinlichkeit verbunden, ein starker Raucher zu sein: die Wahrscheinlichkeit, 1-7 Zigaretten pro Tag zu konsumieren, beginnt zu sinken, wenn das Jahreseinkommen 100.000 $ übersteigt, während die Wahrscheinlichkeit, >12 Zigaretten pro Tag zu konsumieren, mit dem Einkommen steigt und zum häufigsten Rauchergebnis wird, wenn das Einkommen am höchsten ist. Dies deutet darauf hin, dass Zigaretten unter Rauchern als das behandelt werden, was Ökonomen ein normales Gut nennen, d. h. etwas, dessen Nachfrage mit steigendem Einkommen zunimmt.
Wir sehen an diesem Beispiel, dass der Einfluss des Einkommens auf den Zigarettenkonsum vielschichtig ist. Der Befehl ziologit ermöglicht es, sowohl die Rauchanfälligkeit als auch die Rauchintensität zu modellieren, was zu einem besseren Verständnis der Faktoren führt, die das Rauchverhalten beeinflussen.