Stata 18 предоставляет новую команду estat gofplot для построения графиков хорошего соответствия (GOF) для моделей выживания. Ее можно использовать для четырех моделей выживания: модели Кокса с правой цензурой (stcox), модели Кокса с интервальной цензурой (stintcox), параметрической модели с правой цензурой (streg) и параметрической модели с интервальной цензурой (stintreg). Проверьте соответствие модели после стратифицированных моделей или отдельно для каждой группы.
Графики GOF обеспечивают визуальную проверку того, насколько хорошо модель соответствует данным. В анализе выживаемости эти проверки основаны на так называемых остатках Кокса-Снелла и предположении, что если модель верна, то эти остатки должны иметь стандартное экспоненциальное распределение. Визуально это предположение оценивается путем построения графика остатков против их расчетного кумулятивного риска — чем ближе построенные значения к линии 45°, тем лучше соответствие (Cox and Snell 1968).
Давайте посмотрим, как это работает
Графики GOF для данных с правой цензурой
Мы используем набор данных о 103 пациентах, принятых в Стэнфордскую программу трансплантации сердца (Crowley and Hu 1977). Набор данных включает год принятия пациента в программу (год), возраст пациента (возраст), были ли у пациента ранее другие операции на сердце (операция) и была ли ему проведена трансплантация (посттрансплантация). Мы хотим проанализировать время до смерти и проверить, хорошо ли наша модель соответствует данным. Сначала мы построим модель Кокса, набрав
Сравнивая синюю линию с черной контрольной линией, мы приходим к выводу, что наша модель Кокса хорошо подходит к данным.
Для данных с правой цензурой вместо стандартной оценки Нельсона-Аалена (Nelson 1972; Aalen 1978) мы можем использовать опцию km, чтобы использовать альтернативный минус лог оценки Каплана-Мейера (Kaplan and Meier 1958).
Теперь подгоним стратифицированную модель Кокса, которая предполагает, что исходные функции опасности различны для пациентов из разных групп (pgroup), но коэффициенты в этих группах одинаковы.
Модель хорошо согласуется с данными во всех стратах. Красная линия для pgroup = 2 отклоняется от контрольной линии ближе к концу. Это нередко встречается на практике, поскольку к концу исследования для оценки доступно меньше наблюдений.
Чтобы облегчить визуальный контроль графика, мы можем добавить опцию separate для создания отдельных графиков для каждой страты.
. estat gofplot, stratify separate
Графики GOF для данных с интервальной цензурой
Мы используем набор данных исследования, проведенного среди пациенток с ранними стадиями рака молочной железы (Finkelstein and Wolfe 1985), в котором сравнивается косметический эффект двух методов лечения рака (treat) на втягивание груди. Поскольку пациентки наблюдались в случайные периоды наблюдения, точное время втягивания груди не наблюдалось и было известно только в интервале между посещениями (переменные ltime и rtime). Сначала мы подогнали модель Вейбулла с интервальным цензурированием для времени втягивания груди после лечения с помощью программы stintreg:
Для данных с интервальной цензурой определяются остатки типа Кокса-Снелла, которые используются для построения графиков (Farrington 2000). Если модель хорошо подходит к данным, эти остатки должны приближаться к цензурированному стандартному экспоненциальному распределению. Кроме того, для оценки кумулятивного риска используется непараметрическая оценка Тернбулла (Turnbull 1976).
На приведенном выше графике прерывистая линия находится близко к контрольной линии, что говорит о том, что модель Вейбулла хорошо подходит к данным.
Предположим, что теперь мы хотим подогнать экспоненциальную модель и проверить ее пригодность. Мы набираем
. quietly stintreg i.treat, interval(ltime rtime) distribution(exponential) . estat gofplot
Сравнивая этот график GOF с приведенным выше, мы видим, что модель Вейбулла подходит к нашим данным лучше, чем экспоненциальная модель.
Ссылки
Аален, О. О. 1978. Непараметрические выводы для семейства счетных процессов. Annals of Statistics 6: 701-726. https://doi.org/10.1214/aos/1176344247.
Cox, D. R., and E. J. Snell. 1968. Общее определение остатков (с обсуждением). Journal of the Royal Statistical Society, Series B 30: 248-275.
Crowley, J., and M. Hu. 1977. Ковариационный анализ данных о выживаемости при пересадке сердца. Журнал Американской статистической ассоциации 72: 27-36.
Farrington, C. P. 2000. Остатки для моделей пропорциональных опасностей с данными о выживаемости с интервальной цензурой. Biometrics 56: 473-482.
Finkelstein, D. M., and R. A. Wolfe. 1985. Полупараметрическая модель для регрессионного анализа данных о времени отказа с интервальной цензурой. Biometrics 41: 933-945.
Kaplan, E. L., and P. Meier. 1958. Непараметрическое оценивание по неполным наблюдениям. Журнал Американской статистической ассоциации 53: 457-481.
Nelson, W. 1972. Теория и приложения построения графиков опасности для цензурированных данных об отказах. Technometrics 14: 945-966.
Turnbull, B. W. 1976. Эмпирическая функция распределения с произвольно сгруппированными, цензурированными и усеченными данными. Journal of the Royal Statistical Society, Series B 38: 290-295.