Nou în

Model de logit comandat cu inflație zero

Noua comandă ziologit a Stata se potrivește cu modelele de logit comandate cu umflare zero.
Regresia logit ordonată este utilizată pentru modelarea răspunsurilor categorice ordonate, cum ar fi severitatea simptomelor înregistrate ca niciuna, ușoară, moderată sau severă. Valorile mai mari ale acestor rezultate ordonate reprezintă niveluri mai ridicate, dar valoarea numerică este irelevantă.
În unele situații, în date sunt observate mai multe zerouri (sau mai multe valori din cea mai mică categorie) decât s-ar aștepta un model logit tradițional ordonat. Un zero ar putea reprezenta absența unei trăsături, în timp ce valorile rămase reprezintă niveluri crescânde ale trăsăturii.
Se pot observa multe zerouri, unele pentru că individul nu are trăsătura, iar altele pentru că un individ are trăsătura, dar prezintă cel mai scăzut nivel. De exemplu, într-un studiu privind consumul de alcool, unii indivizi nu raportează niciun consum deoarece nu consumă niciodată alcool, în timp ce alții pot raporta că nu consumă alcool deoarece nu au băut în perioada anchetei.
Într-un studiu clinic al unui tratament destinat reducerii tumorilor, rezultatele nu reprezintă nicio îmbunătățire, răspuns parțial sau răspuns complet. Este posibil ca o persoană să nu prezinte nicio îmbunătățire deoarece tumora este rezistentă la tratament sau deoarece tumora a fost tratabilă, dar nu s-a micșorat în momentul măsurării. Distincția este importantă, deoarece tumorile tratabile sunt candidați buni pentru o doză mai mare.
În contexte precum acestea, puteți utiliza un model de logit comandat cu umflare zero (ZIOL). Modelele ZIOL presupun că cele mai mici rezultate provin atât dintr-un model logit, cât și dintr-un model logit ordonat, permițând seturi diferite de predictori pentru fiecare model.

Repere

  • Modelează date ordinale cu o supraabundență de răspunsuri în categoria cea mai joasă
  • Folosiți un model logit pentru a identifica inflația zero și un model logit ordonat pentru răspunsul ordinal
  • Utilizați un set potențial diferit de predictori pentru modelul logit și logit ordonat
  • Interpretează cu ușurință constatările folosind cote de probabilitate și probabilități marginale
  • Suport pentru estimarea bayesiană
  • Erori standard robuste, clustere robuste și bootstrap
  • Suport pentru proiectarea complexă a sondajelor

Să vedem cum funcționează

Pentru acest exemplu, vom folosi date fictive despre consumul de țigări.

. use https://www.stata-press.com/data/r17/tobacco

Rezultatul interesului, tutunul, reprezintă consumul zilnic de țigări ca un răspuns ordinal cu patru niveluri:

. codebook tobacco

tobacco Tobacco usage
Type: Numeric (byte)
Label: tobaclbl
Range: [0,3] Units: 1
Unique values: 4 Missing .: 0/15,000
Tabulation: Freq. Numeric Label
9,469 0 0 cigarettes
3,806 1 1–7 cigarettes/day
1,050 2 8–12 cigarettes/day
675 3 >12 cigarettes/day

Mai mult de jumătate dintre respondenți au raportat că nu consumă țigări. Bănuim că acești respondenți aparțin unuia dintre cele două grupuri: nefumători și potențiali fumători fără activitate curentă de fumat. O regresie logit tradițională ordonată poate modela nivelul consumului de țigări în rândul fumătorilor, dar nu poate face distincție între cele două grupuri de respondenți care nu au raportat consum de țigări. Modelul ZIOL introduce conceptul de susceptibilitate la fumat, în care fumătorii (atât activi, cât și potențiali) sunt susceptibili la fumat, în timp ce nefumătorii autentici nu sunt susceptibili la fumat. Pentru a permite posibilitatea nefumătorilor autentici, alegem modelul ZIOL în locul modelului tradițional logit comandat.
Vom folosi ziologit pentru a modela simultan nivelul consumului de țigări și probabilitatea de a fi fumător. Pentru a modela nivelul consumului de țigări, includem predictori în comanda ziologit imediat după variabila dependentă tobacco. Pentru a modela probabilitatea de a fi fumător, includem predictori în opțiunea inflate(), numită astfel deoarece este utilizată pentru a modela inflația zero. Opțiunea inflate() este necesară deoarece excluderea acesteia echivalează cu potrivirea unui model tradițional de logit comandat.
Să presupunem că dorim să regresăm nivelul consumului de țigări în anii de educație (educație), venitul în 10.000 dolari (income) și sexul (female), în timp ce dorim să modelăm probabilitatea de a fi fumător cu variabile independente education și income, precum și o variabilă care indică dacă oricare dintre părinții respondentului a fumat (parent).
putea încadra acest model folosind următoarea comandă:

. ziologit tobacco education income i.female, inflate(income education i.parent)

Iteration 0:   log likelihood = -15977.364  (not concave)
Iteration 1:   log likelihood =  -13149.83  (not concave)
Iteration 2:   log likelihood = -12467.245
Iteration 3:   log likelihood = -11039.218
Iteration 4:   log likelihood = -9929.2298
Iteration 5:   log likelihood = -9715.1143
Iteration 6:   log likelihood = -9703.2464
Iteration 7:   log likelihood = -9703.2168
Iteration 8:   log likelihood = -9703.2168

Zero-inflated ordered logit regression                 Number of obs =  15,000
                                                       Wald chi2(3)  = 3147.70
Log likelihood = -9703.2168                            Prob > chi2   =  0.0000

tobacco Coefficient Std. err. z P>|z| [95% conf. interval]
tobacco
education .5090816 .0094838 53.68 0.000 .4904938 .5276695
income .583636 .0114401 51.02 0.000 .5612139 .6060581
female
Female -.5307721 .0580736 -9.14 0.000 -.6445943 -.4169499
inflate
income -.1279677 .00705 -18.15 0.000 -.1417856 -.1141499
education -.1412459 .0049693 -28.42 0.000 -.1509855 -.1315062
parent
Smoking 1.187864 .0529432 22.44 0.000 1.084097 1.29163
_cons 2.617219 .1156891 22.62 0.000 2.390473 2.843966
/cut1 5.85957 .104449 5.654853 6.064286
/cut2 11.14187 .1945483 10.76056 11.52318
/cut3 14.3632 .2495117 13.87417 14.85224

Există trei secțiuni în tabelul cu rezultate. Prima secțiune, etichetată tutun, conține coeficienți din modelul logit comandat pentru nivelul consumului de țigări. A doua secțiune, etichetată gonflare, conține coeficienți din modelul logit pentru probabilitatea de a fi fumător. A treia secțiune conține punctele de tăiere din modelul logit comandat.
Pentru a interpreta primele două secțiuni ale tabelului de rezultate, coeficienții pot fi exponențiați și raportați ca raporturi de probabilitate cu opțiunea sau.

. ziologit, or

Zero-inflated ordered logit regression                 Number of obs =  15,000
                                                       Wald chi2(3)  = 3147.70
Log likelihood = -9703.2168                            Prob > chi2   =  0.0000

tobacco Odds ratio Std. err. z P>|z| [95% conf. interval]
tobacco
education 1.663763 .0157788 53.68 0.000 1.633122 1.694978
income 1.792544 .0205068 51.02 0.000 1.752799 1.833191
female
Female .5881507 .034156 -9.14 0.000 .5248755 .659054
inflate
income .8798818 .0062032 -18.15 0.000 .8678073 .8921242
education .8682758 .0043147 -28.42 0.000 .8598602 .8767738
parent
Smoking 3.280066 .1736572 22.44 0.000 2.956768 3.638714
_cons 13.69758 1.584661 22.62 0.000 10.91866 17.18378
/cut1 5.85957 .104449 5.654853 6.064286
/cut2 11.14187 .1945483 10.76056 11.52318
/cut3 14.3632 .2495117 13.87417 14.85224
Note: Estimates are transformed only in the first 2 equations. Note: _cons estimates baseline odds.

Aici vedem că o creștere de 10.000 de dolari a venitului anual scade șansele de a fi fumător cu un factor de 0,88 (scăderea cu 12% a cotelor), dar, în rândul fumătorilor, crește șansele unui consum mai mare de țigări cu un factor de 1,79 (79% creșterea cotelor). Acest lucru sugerează că persoanele mai bogate sunt mai puțin susceptibile de a fuma, dar dacă decid să fumeze, tind să fumeze mai multe țigări.
Dar ce înseamnă cu adevărat aceste rezultate în ceea ce privește probabilitatea de a prezenta un comportament diferit de fumat? Putem folosi margins pentru a răspunde la diferite întrebări folosind parametrii modelului nostru. Spuneți că suntem interesați de relația dintre consumul de țigări și nivelul veniturilor. Mai jos, estimăm probabilitățile pentru fiecare nivel de consum de țigări la venituri anuale de 0 $, 50.000 $, 100.000 $, 150.000 $ și 200.000 $.

. margins, at(income=(0(5)20))

Predictive margins                                       Number of obs = 15,000
Model VCE: OIM

1._predict : Pr(tobacco=0), predict(pmargin outcome(0))
2._predict : Pr(tobacco=1), predict(pmargin outcome(1))
3._predict : Pr(tobacco=2), predict(pmargin outcome(2))
4._predict : Pr(tobacco=3), predict(pmargin outcome(3))

1._at: income =  0
2._at: income =  5
3._at: income = 10
4._at: income = 15
5._at: income = 20

Delta-method
Margin std. err. z P>|z| [95% conf. interval]
_predict#_at
1 1 .7428698 .0044443 167.15 0.000 .7341591 .7515805
1 2 .6190759 .0038733 159.83 0.000 .6114843 .6266675
1 3 .5168462 .0052057 99.29 0.000 .5066433 .5270492
1 4 .526699 .0092168 57.15 0.000 .5086344 .5447636
1 5 .6340465 .0138387 45.82 0.000 .6069232 .6611697
2 1 .2121431 .0034296 61.86 0.000 .2054211 .2188651
2 2 .2792459 .0033861 82.47 0.000 .2726092 .2858826
2 3 .3042245 .0040212 75.65 0.000 .2963431 .312106
2 4 .2226386 .0050478 44.11 0.000 .2127452 .232532
2 5 .0633686 .0047963 13.21 0.000 .0539681 .0727692
3 1 .0372614 .0014098 26.43 0.000 .0344983 .0400245
3 2 .0737865 .0019981 36.93 0.000 .0698702 .0777027
3 3 .1146585 .0029075 39.44 0.000 .1089599 .1203572
3 4 .1351544 .0041403 32.64 0.000 .1270395 .1432693
3 5 .138638 .0052133 26.59 0.000 .1284201 .1488559
4 1 .0077257 .0005647 13.68 0.000 .0066189 .0088324
4 2 .0278917 .0011614 24.01 0.000 .0256153 .030168
4 3 .0642707 .002228 28.85 0.000 .0599038 .0686376
4 4 .115508 .0045623 25.32 0.000 .1065661 .12445
4 5 .1639469 .0085572 19.16 0.000 .147175 .1807188

Aici calculăm probabilitățile așteptate pentru fiecare nivel de consum de țigări la venituri anuale de 0 $, 50.000 $, 100.000 $, 150.000 $ și 200.000 $.
În tabelul de producție, există numeroase combinații de niveluri de venit și consum de țigări. În astfel de cazuri, este mai eficient să prezentați rezultatele grafic. Putem vizualiza probabilitățile așteptate pentru toate nivelurile de venit utilizând marginsplot.

The probability of smoking 0 cigarettes decreases as annual income increases until $100,000, then the probability gradually increases again. The probability of smoking 1–7 cigarettes/day is highest when earnings are $100,000 per year, and lowest when earnings are $200,000 per year.
After reviewing the overall probability of each outcome, we want to examine the relationship between income and the susceptibility to smoking. We use margins to calculate ps, the probability of susceptibility, at the same five levels of income.

. quietly margins, predict(ps) at(income=(0(5)20))

. marginsplot

Patru cincimi dintre respondenți, atunci când venitul este zero, sunt fie fumători, fie potențiali fumători. Probabilitatea de a fi fumător scade odată cu creșterea veniturilor, cu puțin peste o treime dintre respondenți susceptibili la fumat atunci când câștigurile sunt de 200.000 USD pe an. Aceasta susține interpretarea că venitul poate acționa ca un proxy pentru conștiința sănătății.
Apoi, folosim margins pentru a ne concentra asupra subiecților susceptibili la fumat. Prin specificarea statisticului pcond1 împreună cu fiecare nivel de rezultat, calculăm probabilitatea fiecărui nivel de tobacco, în funcție de susceptibilitate. Ca și până acum, calculele se efectuează la cinci niveluri de income și sunt reprezentate grafic cu marginsplot

. quietly margins, predict(pcond1 outcome(0)) predict(pcond1 outcome(1))
 predict(pcond1 outcome(2)) predict(pcond1 outcome(3)) at(income=(0(5)20))

Peste jumătate dintre potențialii fumători, atunci când venitul anual este zero, raportează 0 consum de țigări, iar cei care consumă țigări sunt cel mai probabil să fumeze doar câteva țigări pe zi. Pe măsură ce veniturile cresc, probabilitatea consumului 0 scade, practic toți fumătorii urmând să aibă un consum pozitiv de țigări atunci când câștigurile sunt de 200.000 USD pe an. Venitul anual mai mare este asociat cu o probabilitate mai mare de a fi un fumător intens: probabilitatea de a consuma 1-7 țigări pe zi începe să scadă odată cu venitul anual depășește 100.000 USD, în timp ce probabilitatea de a consuma> 12 țigări pe zi crește odată cu venitul cel mai frecvent rezultat al fumatului atunci când venitul este cel mai mare. Aceasta sugerează că, printre fumători, țigările sunt tratate ca ceea ce economiștii numesc un bun normal; adică ceva pentru care cererea crește atunci când crește venitul.
Putem vedea din acest exemplu că efectul income asupra consumului de țigări este multilateral. Comanda ziologit face posibilă modelarea sensibilității la fumat, precum și a intensității fumatului, conducând la o mai bună înțelegere a factorilor care influențează comportamentul fumatului.