New In 
Lasso für Cox-Proportional-Hazards-Modelle
Wenn Sie Zeit-zu-Ereignis-Daten, auch bekannt als Überlebenszeit- oder Ausfallzeit-Daten, und viele Prädiktoren haben, sehen Sie sich Lasso-Cox und Elasticnet an
Befehle. (Und wenn wir von vielen Prädiktoren sprechen, meinen wir Hunderte, Tausende oder mehr!) Neu in Stata 18, erweitern diese Befehle die bestehende Lasso-Suite für die Vorhersage und Modellauswahl um ein hochdimensionales semiparametrisches Cox-Proportional-Hazards-Modell.
Nach lasso cox und elasticnet cox können Sie stcurve verwenden, um die Überlebens-, Versagens-, Gefährdungs- oder kumulative Gefährdungsfunktion darzustellen, oder eines der anderen nach lasso und elasticnet verfügbaren Postestimationswerkzeuge verwenden.
Wir wollen sehen, wie es funktioniert
Wir veranschaulichen Lasso-Cox anhand eines Beispiels, das das Sterberisiko für Patienten mit Lungenadenokarzinom im Stadium I vorhersagt. Das Adenokarzinom der Lunge ist eines der häufigsten nicht-kleinzelligen Lungenkarzinome.
Ein Adenokarzinom im Stadium I bedeutet, dass der Tumor relativ klein ist und der Krebs nicht auf andere Organe übergegriffen hat. Patienten mit Adenokarzinom im Stadium I haben unterschiedliche Überlebensaussichten, obwohl sie sich in einem frühen Stadium der Krebsentwicklung befinden. Yu et al. (2016) zeigen beispielsweise, dass in einer Kohorte mehr als 50 % der Adenokarzinompatienten im Stadium I innerhalb von 5 Jahren nach der Erstdiagnose starben, während etwa 15 % der Patienten mehr als 10 Jahre überlebten.
Histopathologische Bildmerkmale werden für die prognostische Analyse verwendet. Wir können Lasso-Cox verwenden, um die wichtigsten histopathologischen Bildmerkmale zu extrahieren, die Kurz- und Langzeitüberlebende unterscheiden.
Wir haben einen fiktiven Überlebensdatensatz (lungcancer.dta), inspiriert von Yu et al. (2016). Die Variable t erfasst entweder den Todeszeitpunkt oder die Zensierung in Monaten für Patienten mit Adenokarzinom-Lungenkrebs im Stadium I. Die Indikatorvariable starb ist 1 oder 0, wenn der Patient starb oder zensiert wurde. Es gibt 500 histopathologische Bildmerkmale, histfeature1 bis hisfeature500, und nur 250 Patienten. Ziel der Analyse ist es, einen neuen Patienten anhand der histopathologischen Bildmerkmale in eine Niedrig- oder Hochrisikogruppe einzuordnen.
Wir laden zunächst den Datensatz und geben dann stset ein, um zu zeigen, dass er bereits stset ist.

Als Nächstes teilen wir die vollständige Stichprobe in Trainings- und Testdaten auf. Die Trainingsdaten werden für die Schätzung verwendet, und die Testdaten dienen zur Messung der Vorhersageleistung.
Wir verwenden splitsample, um die Daten in zwei Teile aufzuteilen. Mit der Option generate(group) wird eine neue Variable, group, erstellt, die den Wert 1 hat, wenn sie zu den Trainingsdaten gehört, und den Wert 0, wenn sie zu den Testdaten gehört. Die Option split(0.6 0.4) legt fest, dass 60% der gesamten Daten als Trainingsdaten und 40% als Testdaten verwendet werden. Um die Ergebnisse reproduzierbar zu machen, geben wir die Option rseed() an.
. splitsample, generate(group) split(0.6 0.4) rseed(12345)
Zur späteren Verwendung speichern wir die Trainingsdaten als lungcancer_training.dta und die Testdaten als lungcancer_testing.dta.
. preserve . keep if group == 1 (100 observations deleted) . save lungcancer_training, replace file lungcancer_training.dta not found file lungcancer_training.dta saved . restore . preserve . keep if group == 2 (150 observations deleted) . save lungcancer_testing, replace file lungcancer_testing.dta not found file lungcancer_testing.dta saved . restore
Wir passen nun ein Lasso-Cox-Modell nur mit den Trainingsdaten an. Standardmäßig verwenden wir eine Kreuzvalidierung. Zur Reproduzierbarkeit geben wir rseed() an.

lasso cox wählt 48 der 500 Merkmale aus. Wir können nun das bestrafte relative Gefährdungsverhältnis (Variable riskscore_training) vorhersagen und die Risikoscores bewerten. Wir werden den Median von riskscore_training als Schwellenwert verwenden, um einen Patienten als risikoarm oder risikoreich einzustufen. Wir speichern den Medianwert in einem globalen Makro (median) zur späteren Verwendung.

Wir verwenden nun die Testdaten zur Validierung des Modells. Zunächst wird die bestrafte Hazard Ratio (Variable riskscore_testing) in der Teststichprobe vorhergesagt. Dann vergleichen wir riskscore_testing mit dem Median des in den Trainingsdaten erhaltenen Hazard Ratio ($median). Der Patient wird als Hochrisikopatient eingestuft, wenn der vorhergesagte Risikowert größer oder gleich dem Median ist. Der Patient wird als geringes Risiko eingestuft, wenn der vorhergesagte Risikowert kleiner als der Median ist.
. use lungcancer_testing, clear (Fictitious data on stage I adenocarcinoma lung cancer) . predict riskscore_testing (options hr penalized assumed; predicted hazard ratio with penalized coefficients) . generate byte risk = (riskscore_testing >= $median) . label define risk_lb 1 "High risk" 0 "Low risk" . label values risk risk_lb
Um die Wirksamkeit der Risikoklassifizierung zu bewerten, wird zunächst die Kaplan-Meier-Kurve betrachtet, die die Überlebenskurve für die Gruppen mit niedrigem und mit hohem Risiko darstellt.
. sts graph, by(risk)

Die Grafik zeigt, dass die vorhergesagten Hochrisikopatienten eine steiler abfallende Überlebenskurve haben als die vorhergesagten Niedrigrisikopatienten. Um diese Vermutung zu bestätigen, führen wir einen Log-Rank-Test durch.

Der Log-Rank-Test verwirft die Hypothese, dass die vorhergesagten Niedrigrisiko- und Hochrisikopatienten die gleichen Überlebensfunktionen haben. Sowohl das Kaplan-Meier-Diagramm als auch der Log-Rank-Test zeigen, dass die Verwendung des Medians der vorhergesagten Hazard Ratios einen Patienten mit niedrigem Risiko effektiv von einem Patienten mit hohem Risiko unterscheiden kann. Wir können nun anhand neuer Daten prognostische Vorhersagen machen.
Der Datensatz (newlungcancer.dta) enthält histopathologische Bildmerkmale für einige neue Adenokarzinom-Patienten im Stadium I, deren Überlebenszeit wir noch nicht beobachten können, da sie noch am Leben sind. Auf der Grundlage des Vorhersagemodells von Lasso-Cox wollen wir diese neuen Patienten als Patienten mit niedrigem oder hohem Risiko klassifizieren. Um dieses Ziel zu erreichen, müssen wir nur die Hazard Ratios der neuen Patienten vorhersagen und sie mit dem Median des Risikoscores aus den Trainingsdaten vergleichen.

Aus der Tabelle mit dem vorhergesagten Risikoniveau geht hervor, dass 27 Patienten als geringes Risiko und 23 Patienten als hohes Risiko eingestuft werden.
Referenz
Yu, K., C. Zhang, G. J. Berry, R. B. Altman, C. Ré, D. L. Rubin, und M. Snyder. 2016. Vorhersage der Prognose von nicht-kleinzelligem Lungenkrebs durch vollautomatische mikroskopische Pathologie-Bildmerkmale. Nature Communications 7(12474).