Lasso a Cox modellhez

New In

Lasso Cox arányos veszélyességi modellekhez

Ha van time-to-event adatod, más néven túlélési idő vagy hibaidő adat, és sok prediktor, nézd meg a lasso cox és elasticnet

Kiemelt információk

Becslés: lasso és rugalmas háló
Balra levágás és jobbra cenzorálás
Kiválasztási módszerek
- Keresztellenőrzés
- Adaptív lasso
- BIC
- Felhasználó által meghatározott
Büntetett és poszt-szelekciós előrejelzések
Túlélő és egyéb függvények ábrái

parancsok. (És amikor azt mondjuk, hogy sok prediktor, akkor több száz, ezer vagy még több!) A Stata 18-ban újdonságként ezek a parancsok kibővítik a meglévő lasso-csomagot az előrejelzéshez és a modellválasztáshoz, és egy nagydimenziós félparametrikus Cox arányos veszélyességi modellel egészítik ki.

A lasso cox és az elasticnet cox után az stcurve segítségével ábrázolhatja a túlélő-, a hiba-, a veszély- vagy a kumulatív veszélyfüggvényt, vagy használhatja a lasso és az elasticnet után rendelkezésre álló egyéb utóbecslési eszközök bármelyikét.

Lássuk, hogyan működik

A lasso cox-ot egy olyan példával illusztráljuk, amely az I. stádiumú tüdő adenokarcinómás betegek halálozási kockázatát jelzi előre. A tüdő adenokarcinóma az egyik leggyakoribb nem kissejtes tüdőrák.

Az I. stádiumú adenokarcinóma azt jelzi, hogy a daganat mérete viszonylag kicsi, és a rák nem terjedt át más távoli szervekre. Az I. stádiumú adenokarcinómás betegek túlélési eredményei változatosak, annak ellenére, hogy a rák korai fejlődési stádiumában vannak. Yu és munkatársai (2016) például kimutatták, hogy egy kohorszban az I. stádiumú adenokarcinómás betegek több mint 50%-a az első diagnózist követő 5 éven belül meghalt, míg a betegek mintegy 15%-a több mint 10 évig élt.

A prognosztikai elemzéshez a szövettani képi jellemzőket használják. A lasso cox segítségével kivonhatjuk azokat a legjobb szövettani képjellemzőket, amelyek megkülönböztetik a rövid és hosszú távú túlélőket.

Van egy fiktív túlélési adatkészletünk (lungcancer.dta), amelyet Yu és munkatársai (2016) ihlettek. A t változó vagy a halál időpontját, vagy a cenzus időpontját rögzíti hónapokban az I. stádiumú adenokarcinóma tüdőrákos betegek esetében. A died indikátor változó 1 vagy 0, ha a beteg meghalt, illetve ha cenzúra alá került. 500 szövettani képjellemző van, histfeature1-től hisfeature500-ig, és csak 250 beteg. Az elemzés célja, hogy a szövettani képjellemzők alapján egy új beteget alacsony vagy magas kockázatú csoportba soroljon.

Először betöltjük az adatkészletet, majd beírjuk az stset-et, hogy megmutassuk, hogy már megtörtént az stset.

Ezután a teljes mintát képzési és tesztelési adatokra osztjuk. A képzési adatokat a becsléshez, a tesztelési adatokat pedig az előrejelzési teljesítmény mérésére használjuk.

Az adatokat a splitsample segítségével két részre osztjuk. A generate(group) opcióval létrehozunk egy új változót, a group-ot, amely 1, ha a képzési adatokhoz tartozik, vagy 0 a tesztelési adatokhoz. A split(0.6 0.4) opció azt határozza meg, hogy a teljes adat 60%-át használjuk képzési adatokként, 40%-át pedig tesztelési adatokként. Az eredmények reprodukálhatósága érdekében megadjuk az rseed() opciót.

. splitsample, generate(group) split(0.6 0.4) rseed(12345)

A későbbi használathoz a képzési adatokat lungcancer_training.dta, a tesztelési adatokat pedig lungcancer_testing.dta néven mentjük el.

. preserve

. keep if group == 1
(100 observations deleted)

. save lungcancer_training, replace
file lungcancer_training.dta not found
file lungcancer_training.dta saved

. restore

. preserve

. keep if group == 2
(150 observations deleted)

. save lungcancer_testing, replace
file lungcancer_testing.dta not found
file lungcancer_testing.dta saved

. restore

Most egy Lasso-Cox modellt illesztünk be, csak a képzési adatok felhasználásával. Alapértelmezés szerint keresztellenőrzést használunk. A reprodukálhatóság érdekében megadjuk az rseed()-et.

A lasso cox az 500 jellemzőből 48-at választ ki. Most már megjósolhatjuk a büntetett relatív veszélyességi arányt (riskscore_training változó) és kiértékelhetjük a kockázati pontszámokat. A riskscore_training mediánját használjuk küszöbértékként, hogy egy beteget alacsony vagy magas kockázatúnak minősítsünk. A mediánértéket egy globális makróban (median) tároljuk későbbi felhasználás céljából.

Most a tesztelési adatokat használjuk a modell validálására. Először is megjósoljuk a büntetett kockázati arányt (riskscore_testing változó) a tesztelési mintában. Ezután összehasonlítjuk a riskscore_testing változót a képzési adatokból kapott hazard ratio mediánjával ($median). A beteget akkor jelöljük magas kockázatúnak, ha az előre jelzett kockázati pontszám nagyobb vagy egyenlő a mediánnal. A beteget alacsony kockázatúnak minősítjük, ha az előre jelzett kockázati pontszám kisebb, mint a medián.

. use lungcancer_testing, clear
(Fictitious data on stage I adenocarcinoma lung cancer)

. predict riskscore_testing
(options hr penalized assumed; predicted hazard ratio with penalized
coefficients)

. generate byte risk = (riskscore_testing >= $median)

. label define risk_lb 1 "High risk" 0 "Low risk"

. label values risk risk_lb

A kockázati besorolás hatékonyságának értékeléséhez először a Kaplan-Meier-diagramot nézzük meg, amely az alacsony és a magas kockázatú csoportok túlélési görbéjét ábrázolja.

. sts graph, by(risk)

A grafikon azt mutatja, hogy a magas kockázatú betegek túlélési görbéje meredekebben esik, mint az alacsony kockázatú betegeké. E feltételezés megerősítésére log-rank tesztet végzünk.

A log-rank teszt elutasítja azt a hipotézist, hogy az előre jelzett alacsony és magas kockázatú betegek túlélési függvényei megegyeznek. Mind a Kaplan-Meier-diagram, mind a log-rank teszt azt mutatja, hogy az előre jelzett kockázati arányok mediánjának felhasználásával hatékonyan meg lehet különböztetni az alacsony kockázatú és a magas kockázatú betegeket. Most már prognosztikai előrejelzéseket készíthetünk az új adatok ismeretében.

Az adatkészlet (newlungcancer.dta) néhány új, I. stádiumú adenokarcinómás beteg szövettani képjellemzőit tartalmazza, és még nem figyeljük meg a túlélési idejüket, mert még életben vannak. A lasso cox predikciós modellje alapján szeretnénk ezeket az új betegeket alacsony vagy magas kockázatúnak minősíteni. E cél eléréséhez csak az új betegek kockázati arányait kell megjósolnunk, és összehasonlítanunk a képzési adatokból kapott kockázati pontszám medián szintjével.

Az előre jelzett kockázati szint táblázatából kiderül, hogy 27 beteg alacsony kockázatúnak, míg 23 beteg magas kockázatúnak minősül.

Hivatkozás

Yu, K., C. Zhang, G. J. Berry, R. B. Altman, C. Ré, D. L. Rubin és M. Snyder. 2016. A nem kissejtes tüdőrák prognózisának előrejelzése teljesen automatizált mikroszkópos patológiai képi jellemzőkkel. Nature Communications 7(12474).

Az összes új funkció megtekintése

Stata 18 megrendelése

Frissítés