Ласо для моделі Cox

New In

Ласо для моделей пропорційних ризиків Кокса

Якщо у вас є дані про час до події, також відомі як час виживання або час відмови, і багато предикторів, ознайомтеся з lasso cox та elasticnet

Основні моменти

Оцінка: ласо та еластична сітка
Ліве усікання та праве цензурування
Методи відбору
- Перехресна перевірка
- Адаптивне ласо
- BIC
- Вказано користувачем
Прогнози з пеналізацією та постселекцією
Графіки функцій виживання та інших функцій

(І ми говоримо про багато предикторів, маючи на увазі сотні, тисячі і більше). (І коли ми говоримо “багато предикторів”, ми маємо на увазі сотні, тисячі або більше!) Нові в Stata 18, ці команди розширюють існуючий набір lasso для прогнозування і вибору моделей, включаючи високорозмірну напівпараметричну модель пропорційних небезпек Кокса.

Після lasso cox і elasticnet cox ви можете використовувати stcurve для побудови графіків функції виживання, невдач, небезпеки або кумулятивної небезпеки, або скористатися будь-яким іншим інструментом пост-оцінки, доступним після lasso і elasticnet.

Подивимося, як це працює

Ми проілюструємо метод Лассо-Кокса на прикладі, який прогнозує ризик смерті для пацієнтів з аденокарциномою легень I стадії. Аденокарцинома легень – один з найпоширеніших недрібноклітинних раків легень.

Аденокарцинома I стадії означає, що розмір пухлини відносно невеликий і рак не поширився на інші віддалені органи. Пацієнти з аденокарциномою I стадії мають різні результати виживання, навіть якщо вони знаходяться на ранній стадії розвитку раку. Наприклад, Yu та ін. (2016) показують, що в одній когорті понад 50% пацієнтів з аденокарциномою I стадії померли протягом 5 років після первинного діагнозу, тоді як близько 15% пацієнтів прожили більше 10 років.

Для прогностичного аналізу використовуються особливості гістопатологічного зображення. Ми можемо використовувати метод Лассо-Кокса для виділення головних особливостей гістологічного зображення, які відрізняють короткострокових і довгострокових пацієнтів, що вижили.

У нас є вигаданий набір даних про виживання (lungcancer.dta), натхненний роботою Yu et al. (2016). Змінна t фіксує або час смерті, або час цензури в місяцях для пацієнтів з аденокарциномою легень I стадії. Змінна-індикатор померла дорівнює 1 або 0, якщо пацієнт помер або був цензурований відповідно. Існує 500 ознак гістопатологічних зображень, від histfeature1 до hisfeature500, і лише 250 пацієнтів. Аналіз має на меті віднести нового пацієнта до групи низького або високого ризику, враховуючи особливості гістопатологічного зображення.

Спочатку ми завантажуємо набір даних, а потім вводимо stset, щоб показати, що він вже був розбитий на групи.

Далі ми розділимо всю вибірку на навчальні та тестові дані. Навчальні дані будуть використані для оцінювання, а тестові дані будуть використані для вимірювання ефективності прогнозування.

Ми використовуємо splitsample, щоб розділити дані на дві частини. Ми використовуємо опцію generate(group) для створення нової змінної group, яка дорівнює 1, якщо вона належить до навчальних даних, або 0, якщо до тестових даних. Опція split(0.6 0.4) вказує, що 60% всіх даних використовуються як навчальні дані, а 40% – як тестові. Щоб зробити результати відтворюваними, ми вказуємо опцію rseed().

. splitsample, generate(group) split(0.6 0.4) rseed(12345)

Для подальшого використання ми зберігаємо навчальні дані як lungcancer_training.dta, а тестові – як lungcancer_testing.dta.

. preserve

. keep if group == 1
(100 observations deleted)

. save lungcancer_training, replace
file lungcancer_training.dta not found
file lungcancer_training.dta saved

. restore

. preserve

. keep if group == 2
(150 observations deleted)

. save lungcancer_testing, replace
file lungcancer_testing.dta not found
file lungcancer_testing.dta saved

. restore

Тепер ми підбираємо модель Лассо-Кокса, використовуючи лише навчальні дані. За замовчуванням ми використовуємо перехресну перевірку. Ми вказуємо rseed() для відтворюваності.

lasso cox відбирає 48 з 500 ознак. Тепер ми можемо спрогнозувати штрафоване відношення відносного ризику (змінна riskscore_training) і оцінити бали ризику. Ми будемо використовувати медіану riskscore_training як порогове значення для класифікації пацієнта як низького або високого ризику. Ми зберігаємо значення медіани в глобальному макросі (median) для подальшого використання.

Тепер ми використовуємо дані тестування для перевірки моделі. Спочатку ми прогнозуємо штрафний коефіцієнт небезпеки (змінна riskscore_testing) на тестовій вибірці. Потім ми порівнюємо ризики_тестування з медіаною відношення ризиків, отриманого на навчальних даних ($median). Пацієнт відноситься до групи високого ризику, якщо прогнозована оцінка ризику більша або дорівнює медіані. Пацієнт класифікується як низький ризик, якщо прогнозована оцінка ризику менша за медіану.

. use lungcancer_testing, clear
(Fictitious data on stage I adenocarcinoma lung cancer)

. predict riskscore_testing
(options hr penalized assumed; predicted hazard ratio with penalized
coefficients)

. generate byte risk = (riskscore_testing >= $median)

. label define risk_lb 1 "High risk" 0 "Low risk"

. label values risk risk_lb

Щоб оцінити ефективність класифікації ризиків, ми спочатку розглянемо графік Каплана-Мейєра, який відображає криву виживання як для груп низького, так і для груп високого ризику.

. sts graph, by(risk)

На графіку видно, що прогнозовані пацієнти з високим ризиком мають більш круто спадаючу криву виживання, ніж прогнозовані пацієнти з низьким ризиком. Щоб підтвердити це припущення, ми проводимо лог-ранг тест.

Логістичний ранговий тест відкидає гіпотезу про те, що прогнозовані пацієнти з низьким і високим ризиком мають однакові функції виживання. Як діаграма Каплана-Мейєра, так і лог-ранговий тест показують, що використання медіани прогнозованого співвідношення ризиків може ефективно відрізнити пацієнта з низьким ризиком від пацієнта з високим ризиком. Тепер ми можемо робити прогностичні прогнози з урахуванням нових даних.

Набір даних (newlungcancer.dta) містить особливості гістопатологічних зображень деяких нових пацієнтів з аденокарциномою I стадії, і ми ще не спостерігаємо час їхнього виживання, оскільки вони ще живі. На основі моделі прогнозування Лассо Кокса ми хочемо класифікувати цих нових пацієнтів як пацієнтів з низьким або високим ризиком. Для цього нам потрібно спрогнозувати лише коефіцієнти небезпеки нових пацієнтів і порівняти їх з медіанним рівнем оцінки ризику, отриманим на навчальних даних.

Таблиця прогнозованого рівня ризику показує, що 27 пацієнтів відносяться до групи низького ризику, тоді як 23 пацієнти – до групи високого ризику.

Посилання

Ю, К., К. Чжан, Г. Я. Беррі, Р. Б. Альтман, К. Ре, Д. Л. Рубін та М. Снайдер. 2016. Прогнозування прогнозу недрібноклітинного раку легенів за допомогою повністю автоматизованого аналізу особливостей мікроскопічних патологічних зображень. Nature Communications 7(12474).

Переглянути всі нові функції

Замовити Stata 18

оновити