New In

Lasso pro modely Coxových proporcionálních rizik

Pokud máte data od doby do události, známá také jako data o době přežití nebo době selhání, a mnoho prediktorů, vyzkoušejte lasso cox a elasticnet.

Nejdůležitější informace

  • Odhad: laso a elastická síť

  • Ořezávání vlevo a cenzura vpravo

  • Výběrové metody

    • Křížové ověřování

    • Adaptivní lasso

    • BIC

    • Zadáno uživatelem

  • Penalizované předpovědi a předpovědi po výběru

  • Grafy přeživších a dalších funkcí

příkazy. (A když říkáme mnoho prediktorů, myslíme tím stovky, tisíce nebo více!) Nově ve Stata 18 tyto příkazy rozšiřují stávající sadu lasso pro predikci a výběr modelu o vysokodimenzionální semiparametrický Coxův model proporcionálních rizik.

Po lasso cox a elasticnet cox můžete použít stcurve k vykreslení funkce přežití, selhání, rizika nebo kumulativního rizika nebo použít některý z dalších postestimalizačních nástrojů, které jsou k dispozici po lasso a elasticnet.

Podívejme se, jak to funguje

Ilustrujeme lasso cox na příkladu, který předpovídá riziko úmrtí u pacientů s adenokarcinomem plic ve stadiu I. Plicní adenokarcinom je jedním z nejčastějších nemalobuněčných karcinomů plic.

Stádium I adenokarcinomu naznačuje, že velikost nádoru je relativně malá a rakovina se nerozšířila do jiných vzdálených orgánů. Pacienti s adenokarcinomem ve stadiu I mají různou dobu přežití, přestože se jedná o pacienty v časném stadiu vývoje nádoru. Například Yu et al. uvádí (2016), že v jedné kohortě více než 50 % pacientů s adenokarcinomem stadia I zemřelo do 5 let od stanovení první diagnózy, zatímco přibližně 15 % pacientů přežívalo déle než 10 let.

K prognostické analýze se používají histopatologické obrazové znaky. Pomocí lasso cox můžeme extrahovat hlavní rysy histopatologického obrazu, které rozlišují krátkodobě a dlouhodobě přežívající pacienty.

Máme k dispozici fiktivní soubor dat o přežití (lungcancer.dta) inspirovaný Yu et al. (2016). Proměnná t zaznamenává buď čas úmrtí, nebo cenzuru v měsících u pacientů s adenokarcinomem plic ve stadiu I. Indikátorová proměnná died má hodnotu 1, resp. 0, pokud pacient zemřel nebo je cenzorován. K dispozici je 500 histopatologických obrazových znaků, histfeature1 hisfeature500, a pouze 250 pacientů. Cílem analýzy je zařadit nového pacienta do skupiny s nízkým nebo vysokým rizikem na základě histopatologických obrazových znaků.

Nejprve načteme datovou sadu a poté zadáme příkaz stset, abychom ukázali, že již byla stetována.

Poté jsme celý vzorek rozdělili na tréninková a testovací data. Tréninková data budou použita k odhadu a testovací data budou použita k měření predikční výkonnosti.

K rozdělení dat na dvě části použijeme příkaz splitsample. Pomocí volby generate(group) vytvoříme novou proměnnou group, která se rovná 1, pokud patří do trénovacích dat, nebo 0 do testovacích dat. Volba split(0,6 0,4) určuje, že 60 % všech dat se použije jako trénovací data a 40 % jako testovací data. Aby byly výsledky reprodukovatelné, zadáme volbu rseed().

. splitsample, generate(group) split(0.6 0.4) rseed(12345)

Pro pozdější použití uložíme trénovací data jako lungcancer_training.dta a testovací data jako lungcancer_testing.dta.

. preserve

. keep if group == 1
(100 observations deleted)

. save lungcancer_training, replace
file lungcancer_training.dta not found
file lungcancer_training.dta saved

. restore

. preserve

. keep if group == 2
(150 observations deleted)

. save lungcancer_testing, replace
file lungcancer_testing.dta not found
file lungcancer_testing.dta saved

. restore

Nyní použijeme lasso cox model pouze na základě trénovacích dat. Ve výchozím nastavení použijeme křížovou validaci. Kvůli reprodukovatelnosti zadáme rseed().

lasso cox vybere 48 z 500 funkcí. Nyní můžeme předpovědět penalizovaný poměr relativního rizika (proměnná riskscore_training) a vyhodnotit skóre rizika. Medián hodnoty riskscore_training použijeme jako prahovou hodnotu pro klasifikaci pacienta jako pacienta s nízkým nebo vysokým rizikem. Hodnotu mediánu uložíme do globálního makra (medián) pro pozdější použití.

Nyní použijeme testovací data k ověření modelu. Nejprve předpovíme penalizovaný poměr rizik (proměnná riskscore_testing) v testovacím vzorku. Poté porovnáme riskscore_testing s mediánem poměru rizik získaným v trénovacích datech ($median). Pacient je označen jako vysoce rizikový, pokud je predikované skóre rizika větší nebo rovno mediánu. Pacient je klasifikován jako pacient s nízkým rizikem, pokud je predikované skóre rizika menší než medián.

. use lungcancer_testing, clear
(Fictitious data on stage I adenocarcinoma lung cancer)

. predict riskscore_testing
(options hr penalized assumed; predicted hazard ratio with penalized
coefficients)

. generate byte risk = (riskscore_testing >= $median)

. label define risk_lb 1 "High risk" 0 "Low risk"

. label values risk risk_lb

Při hodnocení účinnosti klasifikace rizika se nejprve podíváme na Kaplanův-Meierův graf, který vykresluje křivku přežití pro skupiny s nízkým i vysokým rizikem.

. sts graph, by(risk)

Z grafu je patrné, že předpokládaní pacienti s vysokým rizikem mají strměji klesající křivku přežití než předpokládaní pacienti s nízkým rizikem. Pro potvrzení této domněnky provedeme log-rank test.

Log-rank test zamítá hypotézu, že předpokládané přežití pacientů s nízkým a vysokým rizikem je stejné. Jak Kaplan-Meierův graf, tak log-rank test ukazují, že pomocí mediánu predikovaných poměrů rizik lze účinně odlišit pacienta s nízkým rizikem od pacienta s vysokým rizikem. Nyní můžeme na základě nových údajů provádět prognostické předpovědi.

Soubor dat (newlungcancer.dta) obsahuje histopatologické obrazové prvky pro některé nové pacienty s adenokarcinomem ve stadiu I a jejich dobu přežití zatím nesledujeme, protože jsou stále naživu. Na základě predikčního modelu z lasso cox chceme tyto nové pacienty klasifikovat jako pacienty s nízkým nebo vysokým rizikem. Abychom tohoto cíle dosáhli, musíme předpovědět pouze poměry rizika nových pacientů a porovnat je s mediánem úrovně rizikového skóre získaného v trénovacích datech.

Z tabulky předpokládané míry rizika vyplývá, že 27 pacientů je klasifikováno jako nízké riziko, zatímco 23 pacientů je klasifikováno jako vysoké riziko.

Odkaz

Yu, K., C. Zhang, G. J. Berry, R. B. Altman, C. Ré, D. L. Rubin a M. Snyder. 2016. Predikce prognózy nemalobuněčného karcinomu plic pomocí plně automatizovaných mikroskopických obrazových znaků patologie. Nature Communications 7(12474).