New In

Lasso pentru modelele de hazard proporționale Cox

Dacă aveți date de timp până la eveniment, cunoscute și sub numele de date de supraviețuire în timp sau de eșec în timp, și mulți predictori, verificați lasso cox și elasticnet.

Repere

  • Estimare: lasso și plasă elastică

  • Trunchierea la stânga și cenzurarea la dreapta

  • Metode de selecție

    • Validare încrucișată
    • Lasso adaptiv
    • BIC
    • Specificat de utilizator
  • Predicții penalizate și postselecție

  • Diagrame ale funcțiilor de supraviețuire și ale altor funcții

comenzi. (Și când spunem mulți predictori, ne referim la sute, mii sau mai mulți!) Noi în Stata 18, aceste comenzi extind suita existentă de lasso pentru predicție și selecție de modele pentru a include un model semiparametric semiparametric Cox proportional hazards de înaltă dimensiune.

După lasso cox și elasticnet cox, puteți utiliza stcurve pentru a reprezenta grafic funcția de supraviețuire, de eșec, de hazard sau de hazard cumulat sau puteți utiliza oricare dintre celelalte instrumente de postestimare disponibile după lasso și elasticnet.

Să vedem cum funcționează

Ilustrăm lasso cox cu un exemplu care prezice riscul de deces pentru pacienții cu adenocarcinom pulmonar în stadiul I. Adenocarcinomul pulmonar este unul dintre cele mai frecvente cancere pulmonare fără celule mici.

Stadiul I al adenocarcinomului indică faptul că dimensiunea tumorii este relativ mică și cancerul nu s-a răspândit la alte organe îndepărtate. Pacienții cu adenocarcinom în stadiul I au rezultate variate în ceea ce privește supraviețuirea, chiar dacă se află în stadiul incipient de dezvoltare a cancerului. De exemplu, Yu et al. (2016) arată că, într-o cohortă, mai mult de 50% dintre pacienții cu adenocarcinom în stadiul I au murit în termen de 5 ani de la diagnosticul inițial, în timp ce aproximativ 15% dintre pacienți au supraviețuit mai mult de 10 ani.

Caracteristicile imaginii histopatologice sunt utilizate pentru analiza prognostică. Putem utiliza lasso cox pentru a extrage caracteristicile de top ale imaginii histopatologice care disting supraviețuitorii pe termen scurt și pe termen lung.

Avem un set de date fictiv de supraviețuire (lungcancer.dta) inspirat de Yu et al. (2016). Variabila t înregistrează fie momentul decesului, fie cenzura în luni pentru pacienții cu cancer pulmonar cu adenocarcinom în stadiul I. Variabila indicatoare died este 1 sau 0 dacă pacientul a murit sau este cenzurat, respectiv. Există 500 de caracteristici ale imaginii histopatologice, histfeature1 până la hisfeature500, și doar 250 de pacienți. Analiza are ca scop clasificarea unui nou pacient într-un grup cu risc scăzut sau cu risc ridicat, având în vedere caracteristicile imaginii histopatologice.

Mai întâi încărcăm setul de date și apoi tastăm stset pentru a arăta că acesta a fost deja stset.

În continuare, împărțim eșantionul complet în date de instruire și de testare. Datele de instruire vor fi utilizate pentru estimare, iar datele de testare vor fi utilizate pentru a măsura performanța predicției.

Utilizăm splitsample pentru a împărți datele în două părți. Utilizăm opțiunea generate(group) pentru a crea o nouă variabilă, group, care este egală cu 1 dacă aparține datelor de instruire sau cu 0 pentru datele de testare. Opțiunea split(0.6 0.4) specifică faptul că 60% din totalul datelor sunt utilizate ca date de instruire și 40% ca date de testare. Pentru ca rezultatele să fie reproductibile, specificăm opțiunea rseed().

. splitsample, generate(group) split(0.6 0.4) rseed(12345)

Pentru utilizare ulterioară, salvăm datele de instruire ca lungcancer_training.dta și datele de testare ca lungcancer_testing.dta.

. preserve

. keep if group == 1
(100 observations deleted)

. save lungcancer_training, replace
file lungcancer_training.dta not found
file lungcancer_training.dta saved

. restore

. preserve

. keep if group == 2
(150 observations deleted)

. save lungcancer_testing, replace
file lungcancer_testing.dta not found
file lungcancer_testing.dta saved

. restore

În prezent, se potrivește un model lasso cox folosind doar datele de instruire. În mod implicit, folosim validarea încrucișată. Specificăm rseed() pentru reproductibilitate.

lasso cox selectează 48 din cele 500 de caracteristici. Acum putem prezice raportul penalizat al riscului relativ (variabila riskscore_training) și putem evalua scorurile de risc. Vom utiliza mediana lui riskscore_training ca prag pentru a clasifica un pacient ca fiind cu risc scăzut sau cu risc ridicat. Stocăm valoarea mediană într-o macro globală (median) pentru utilizare ulterioară.

Acum folosim datele de testare pentru a valida modelul. În primul rând, prezicem raportul de risc penalizat (variabila riskscore_testing) în eșantionul de testare. Apoi, comparăm riskscore_testing cu mediana raportului de hazard obținut în datele de instruire ($median). Pacientul este etichetat cu risc ridicat dacă scorul de risc prezis este mai mare sau egal cu mediana. Pacientul este clasificat ca risc scăzut dacă scorul de risc prezis este mai mic decât mediana.

. use lungcancer_testing, clear
(Fictitious data on stage I adenocarcinoma lung cancer)

. predict riskscore_testing
(options hr penalized assumed; predicted hazard ratio with penalized
coefficients)

. generate byte risk = (riskscore_testing >= $median)

. label define risk_lb 1 "High risk" 0 "Low risk"

. label values risk risk_lb

Pentru a evalua eficacitatea clasificării riscului, analizăm mai întâi graficul Kaplan-Meier, care trasează curba de supraviețuire atât pentru grupurile cu risc scăzut, cât și pentru cele cu risc ridicat.

. sts graph, by(risk)

Graficul arată că pacienții cu risc ridicat prezis au o curbă de supraviețuire mai abruptă decât pacienții cu risc scăzut prezis. Pentru a confirma această ipoteză, facem un test log-rank.

Testul log-rank respinge ipoteza că pacienții cu risc scăzut și cei cu risc ridicat prezise au aceleași funcții de supraviețuire. Atât graficul Kaplan-Meier, cât și testul log-rank arată că utilizarea medianei rapoartelor de hazard prezise poate distinge în mod eficient un pacient cu risc scăzut de un pacient cu risc ridicat. Acum putem face predicții prognostice având în vedere noile date.

Setul de date (newlungcancer.dta) conține caracteristici ale imaginilor histopatologice pentru unii pacienți noi cu adenocarcinom în stadiul I și nu observăm încă timpul de supraviețuire al acestora, deoarece sunt încă în viață. Pe baza modelului de predicție din lasso cox, dorim să clasificăm acești noi pacienți ca fiind cu risc scăzut sau cu risc ridicat. Pentru a atinge acest obiectiv, trebuie să prezicem doar ratele de risc ale noilor pacienți și să le comparăm cu nivelul median al scorului de risc obținut în datele de instruire.

Tabelul privind nivelul de risc prezis arată că 27 de pacienți sunt clasificați ca având un risc scăzut, în timp ce 23 de pacienți sunt clasificați ca având un risc ridicat.

Referință

Yu, K., C. Zhang, G. J. Berry, R. B. Altman, C. Ré, D. L. Rubin, și M. Snyder. 2016. Predicția prognosticului cancerului pulmonar fără celule mici prin caracteristici complet automatizate ale imaginilor de patologie microscopică. Nature Communications 7(12474).