限制性立方样条在临床研究数据分析中的应用

高湘金, 肇晖, 王瑞平

上海医药 ›› 2024, Vol. 45 ›› Issue (13) : 29-33.

PDF(1574 KB)
主管单位:上海市经济和信息化委员会
主办单位:上海医药行业协会
中国标准连续出版物号:
ISSN 1006-1533
CN 31-1663/R
PDF(1574 KB)
上海医药 ›› 2024, Vol. 45 ›› Issue (13) : 29-33.
临床研究规范

限制性立方样条在临床研究数据分析中的应用

作者信息 +

Application of restricted cubic splines in clinical research data analysis

Author information +
文章历史 +

摘要

临床研究中,时常需要构建回归模型分析自变量与因变量之间的关系。然而,回归模型大多要求自变量与因变量呈线性关联。当自变量与因变量不满足上述条件时,将连续型变量转化为分类变量会导致损失部分信息并可能引进新的偏倚。因此,这种情况下就需要构建样条回归直接拟合自变量与因变量之间的非线性关系,这种分析常用的方法就是限制性立方样条。本文从概念入手,就开展临床研究数据分析时,如何应用限制性立方样条拟合自变量与因变量之间的非线性关系进行阐述,以期为临床医务人员开展临床研究提供参考。

Abstract

In clinical research, it is often necessary to construct regression models to analyze the relationship between independent variables and dependent variables. However, most regression models require a linear association of the independent variables with the dependent variable. When the independent variable and the dependent variable do not satisfy these conditions, transforming continuous variables into categorical variables will result in the loss of some information and may introduce new biases. Therefore, in this case, it is necessary to construct a spline regression to directly fit the nonlinear relationship between the independent variable and the dependent variable, and a common method for this analysis is the restricted cubic spline. This article starts with the concept of how to apply a restricted cubic spline to fit the nonlinear relationship between the independent variable and the dependent variable when analyzing clinical research data, so as to provide reference for clinical medical personnel to conduct clinical research.

关键词

限制性立方样条 / 非线性 / R语言

Key words

restricted cubic spline / nonlinear / the R programming language

引用本文

导出引用
高湘金, 肇晖, 王瑞平. 限制性立方样条在临床研究数据分析中的应用[J]. 上海医药, 2024, 45(13): 29-33
GAO Xiangjin, ZHAO Hui, WANG Ruiping. Application of restricted cubic splines in clinical research data analysis[J]. Shanghai Medical & Pharmaceutical Journal, 2024, 45(13): 29-33
中图分类号: R-3 (医学研究方法)   
临床研究数据分析中,为探究自变量与因变量之间的数量关系,时常需要构建回归模型进行数据的统计分析。但是大多数回归模型要求自变量与因变量呈线性关联,在实际临床研究中经常难以满足这一要求。当自变量与因变量不满足线性关联时,首先,可考虑将连续型变量转化为分类变量进行统计分析,但是分类变量的类别数以及分界点的选择往往会带有一定主观性并会导致部分信息的损失,还可能导致新偏倚的引入。此外,还可通过构建多项式回归或样条回归直接拟合自变量与因变量之间的非线性关系。但当数据在某个节点前后趋势发生了改变,即所有数据不能用同一种关系表示时,多项式回归的拟合效果就较差。样条回归是加了约束条件的多项式回归,因为多项式回归使每一段回归的内部效应被强行平均,节点位置容易出现突然跳跃和瞬间变化,这不符合实际情况。这种情况下就需要构建样条回归,才能更准确地拟合自变量与因变量之间的关系。限制性立方样条(restricted cubic spline, RCS)就是分析非线性关系的最常见的方法之一[1]

1 方法定义

在一项发表在《英国医学杂志》(British Medical Journal, BMJ)上的前瞻性队列研究中,Lee等[2]通过脂肪质量(fat mass)、瘦体质量(lean body mass)、体质量指数(body mass index,BMI)预测男性全因死亡率。文章中使用RCS模型拟合脂肪质量、瘦体质量、身体质量指数与男性全因死亡率之间的关系。RCS拟合结果显示,当脂肪质量在21 kg以下时,男性全因死亡率相对平稳;当脂肪质量超过21 kg后,男性全因死亡率随脂肪质量增加而迅速增加[风险率(hazard ratio, HR)=1.22,95%置信区间(confidence Interval, CI)为(1.18,1.26)]。如图1所示,瘦体质量与男性全因死亡率之间的关系呈强U型,当瘦体质量在56 kg以下时,男性全因死亡率随瘦体质量增加而迅速降低[HR=0.87,95%CI为(0.82,0.92)];当瘦体质量超过56 kg后,男性全因死亡率随瘦体质量增加而迅速增加[HR=1.14,95%CI为(1.09,1.20)]。BMI与男性全因死亡率之间的关系呈强U型,当BMI在25 kg/m2以下时,男性全因死亡率随BMI增加而迅速降低[HR=0.92,95%CI为(0.87,0.98)];当BMI超过25 kg/m2后,男性全因死亡率随BMI增加而迅速增加[HR=1.16,95%CI为(1.13,1.19)]。从上述研究结果中可以发现,RCS在描述自变量与因变量之间关系的应用上具有优异的效果(图1)。
图1 身体成分、BMI与男性全因死亡率之间的关系

Full size|PPT slide

RCS分析中一个重要概念为样条。样条(spline)原指一种工匠用来绘制平滑曲线的细长木条。工匠们通过将重物固定在木条的不同位置,使木条根据重物的数量与位置发生自由弯曲,且在弯曲结点处具有连续的曲率,然后沿木条绘制平滑曲线。通过样条绘制的平滑曲线本质上是一个平滑连接的分段多项式函数,它受限于重物的数量和位置,称为“节点”,而多项式的类型及节点的数量和位置决定了平滑曲线的形状[3]
回归样条(regression spline)本质上是一个每个节点处连续且二阶可导的分段多项式函数,节点处连续且二阶可导保证了回归样条曲线的平滑性。回归样条往往在自变量取值范围两端预测区间会非常宽,因此常需在两端追加限制条件。RCS通过将研究数据拟合回归样条,使其在整个自变量取值范围内均呈光滑的曲线;并要求回归样条在自变量取值范围两端的两个区间内为线性函数,即曲线在第一个节点之前和最后一个节点之后是线性的[4]。正常情况下这会导致RCS在各段区间内拟合效果略差于分段回归,但是总体趋势上更加合理。

2 节点的选择

RCS分析的核心就是构建样条曲线。样条曲线本质是一个分段多项式函数,其形状受限于节点的选择。在应用RCS时,节点的数量和位置可根据研究背景和样本量自行选择。节点的数量对于RCS的拟合效果影响较大,会直接决定拟合曲线的形状。节点数量越多,RCS拟合曲线的形状越复杂,也越容易导致过拟合的问题。当节点数量为2时,拟合曲线形状为一条直线;当节点数量与样本量相等时,拟合曲线形状为一条完全拟合但不平滑的连续折线[5]。节点的位置通常对RCS的拟合效果影响不大,通常会选择固定间隔的数据点作为节点,这样可以保证拟合曲线经过给定的数据点,且在节点处保持连续性。
一般来说,RCS节点数量推荐取3~5个。Harrell[6]指出节点的数量选择4时,RCS模型的拟合效果较好,可以兼顾拟合曲线的平滑程度和避免过度拟合造成的精度降低。当样本量较大时(如y>100且为未删失的连续变量),节点的数量可以选择5。当样本量较小时(如n<30),节点的数量也可以选择3。通常情况,RCS节点位置推荐选取分布均匀且固定间隔的数据点。例如:当节点数量取3时,节点位置推荐选择P10、P50、P90;当节点数量取4时,节点位置推荐选择P5、P35、P65、P95;当节点数量取5时,节点位置推荐选择P5、P27.5、P50、P72.5、P95(表1图2)。
表1 RCS节点位置推荐
节点数量 节点1 节点2 节点3 节点4 节点5 节点6 节点7
3 0.100 0 0.500 0 0.900 0
4 0.050 0 0.350 0 0.650 0 0.950 0
5 0.050 0 0.275 0 0.500 0 0.725 0 0.950 0
6 0.050 0 0.230 0 0.410 0 0.590 0 0.770 0 0.950 0
7 0.025 0 0.183 3 0.341 7 0.500 0 0.658 3 0.816 7 0.975 0
图2 RCS拟合曲线形状

Full size|PPT slide

3 适用条件

首先,想要了解因变量前后变化的趋势,分析自变量和因变量之间存在的因果联系,即想要进行回归分析而非相关性分析。自变量是在模型中由研究者所控制的变量,也称为独立变量;因变量是在模型中由自变量决定或受到自变量影响的变量,也称为依赖变量。自变量和因变量之间存在的关系为函数关系,即因变量是关于自变量的函数。例如,在一项肿瘤药物临床试验中,施加的药物剂量是一个自变量,疾病转归是一个因变量。施加药物剂量的值决定了疾病转归的值,即关于药物剂量的函数。
其次,研究数据无法用一条直线表示,即自变量和因变量呈非线性关联。线性关联指两变量之间保持等比例的关系,其在图形上表现为一条直线,当一个变量变化时另一个变量也会随之变化。线性关联可以用数学方程式来表示,而非线性关联则必须用多种不同的数学方程式组合来表示。线性关联可以用直线表示的线性回归拟合,而非线性关联则只能用多项式回归或样条回归等特定的回归模型拟合。例如,在Li等[7]开展的中老年人睡眠时长与认知、精神健康等广泛表征关系的研究中,中老年人睡眠时长与认知、精神健康呈显著的U型非线性关联,研究数据无法用一条直线来表示。当睡眠时长在7 h以下时,认知、精神健康表现随睡眠时长延长而改善;当睡眠时长超过7 h后,认知、精神健康表现随睡眠时长延长而恶化。
最后,研究数据在某个节点前后趋势发生了改变,即所有数据不能用同一种关系表示。当需要分析自变量与因变量之间的非线性关系时,通常会考虑构建多项式回归模型进行拟合。多项式回归通过增加自变量的高次幂等额外预测因子来扩展模型,容易出现过度拟合、共线性和全局性等问题。多项式回归模型随着项数的增多,整个曲线会高频震荡,易出现过度拟合的问题,影响研究结果的外推。由于多项式回归是增加自变量的高次幂扩展模型,而自变量与它的高次幂是存在共线性的。多项式回归是针对所有数据的,具有全局性,当研究数据在某个节点前后趋势发生了改变(如数据在小于某个节点前是直线关系,在大于这个节点后是二次项关系)时,多项式回归的拟合结果就较差。当所有数据不能用同一种关系表示时,为克服多项式回归的缺点,常用的改进方法是将数据集划分为多个连续区间,进行单独的模型拟合,即样条回归。

4 实例分析

由于SAS等统计学软件进行RCS模型拟合时,绘图质量往往较差。因此,进行RCS模型拟合时常使用R软件。本次分析选用上海市妊娠期糖尿病(gestational diabetes mellitus, GDM)孕妇相关研究数据,分析GDM孕妇体育运动时间和孕期血糖异常率之间的关系为例。该研究中,体育运动时间包括GDM孕妇在孕期进行的日常生活类活动和体育锻炼运动,孕期血糖异常率指孕期血糖检测异常的次数占血糖检测总次数的百分比。研究数据显示,纳入的1 139名GDM孕妇的体育运动时间最短为0 min/d,最长为175 min/d,平均(69.35±31.42)min/d,中位数为65 min/d(四分位距:45~90 min/d);孕期血糖异常率以10%~20%为主(216人,18.96%),中位数为33.33%(四分位距:16.67%~57.14%)。
本研究中,为探讨GDM孕妇体育运动时间和孕期血糖异常率之间的关系,应用R 4.3.0软件进行模拟分析,主要涉及的程序包为RMS程序包。首先,根据研究目标确定自变量体育运动时间和因变量孕期血糖异常率。在R软件中下载所需的RMS、ggplot2和ggsci程序包做好准备工作。然后编写R语言代码确定回归模型类型,进一步建立RCS回归模型,然后利用回归模型进行预测,进而形成RCS图。R软件的程序示例如下:
第一步,加载软件包,读取研究数据并设定数据环境(图3)。
图3 软件包加载及数据环境设定编程示例

Full size|PPT slide

第二步,将研究数据进行RCS模型拟合并存储,其次对拟合结果进行方差分析检验是否呈线性关联,然后根据拟合结果计算预测值并存储(图4)。
图4 限制性立方样条模型拟合编程示例

Full size|PPT slide

第三步,根据预测数据集绘制GDM孕妇体育运动时间与孕期血糖异常率的RCS图(图5)。
图5 限制性立方样条图绘制编程示例

Full size|PPT slide

RCS拟合结果显示,GDM孕妇体育运动时间与孕期血糖异常率之间的关系呈倒U型,当GDM孕妇的体育运动时间超过60 min/d后,孕期血糖异常率随体育运动时间增加而逐渐降低。而体育运动时间小于60 min/d时,孕期血糖异常率随体育运动时间增加而逐渐升高;说明每天少于60 min/d的体育运动量不足以使其有效降低血糖异常率,导致特殊情况下体育运动时间与孕期血糖异常率呈正相关(图6)。
图6 GDM孕妇体育运动时间与孕期血糖异常率之间的关系

Full size|PPT slide

参考文献

[1]
Gurrin LC, Scurrah KJ, Hazelton ML. Tutorial in biostatistics: spline smoothing with linear mixed models[J]. Stat Med, 2005, 24(21): 3361-3381.
The semi-parametric regression achieved via penalized spline smoothing can be expressed in a linear mixed models framework. This allows such models to be fitted using standard mixed models software routines with which many biostatisticians are familiar. Moreover, the analysis of complex correlated data structures that are a hallmark of biostatistics, and which are typically analysed using mixed models, can now incorporate directly smoothing of the relationship between an outcome and covariates. In this paper we provide an introduction to both linear mixed models and penalized spline smoothing, and describe the connection between the two. This is illustrated with three examples, the first using birth data from the U.K., the second relating mammographic density to age in a study of female twin-pairs and the third modelling the relationship between age and bronchial hyperresponsiveness in families. The models are fitted in R (a clone of S-plus) and using Markov chain Monte Carlo (MCMC) implemented in the package WinBUGS.
[2]
Lee DH, Keum N, Hu FB, et al. Predicted lean body mass, fat mass, and all cause and cause specific mortality in men: prospective US cohort study[J]. BMJ, 2018, 362: k2575.
[3]
巩浩雯, 熊殷, 刘玉秀, 等. 几种非线性混杂变量校正方法的性能比较[J]. 中国卫生统计, 2023, 40(3): 326-330.
[4]
罗剑锋, 金欢, 李宝月, 等. 限制性立方样条在非线性回归中的应用研究[J]. 中国卫生统计, 2010, 27(3): 229-232.
[5]
王晓晓, 陶立元, 李楠, 等. 限制性立方样条在非线性关联分析中的应用[J]. 中华儿科杂志, 2020, 58(8): 652.
[6]
Harrell FE Jr. Regression modeling strategies: with applications to linear models, logistic regression, and survival analysis[M]. New York, NY: Springer New York, 2001.
[7]
Li YZ, Sahakian BJ, Kang JJ, et al. The brain structure and genetic mechanisms underlying the nonlinear association between sleep duration, cognition and mental health[J]. Nat Aging, 2022, 2(5): 425-437.
Sleep duration, psychiatric disorders and dementias are closely interconnected in older adults. However, the underlying genetic mechanisms and brain structural changes are unknown. Using data from the UK Biobank for participants primarily of European ancestry aged 38-73 years, including 94% white people, we identified a nonlinear association between sleep, with approximately 7 h as the optimal sleep duration, and genetic and cognitive factors, brain structure, and mental health as key measures. The brain regions most significantly underlying this interconnection included the precentral cortex, the lateral orbitofrontal cortex and the hippocampus. Longitudinal analysis revealed that both insufficient and excessive sleep duration were significantly associated with a decline in cognition on follow up. Furthermore, mediation analysis and structural equation modeling identified a unified model incorporating polygenic risk score (PRS), sleep, brain structure, cognition and mental health. This indicates that possible genetic mechanisms and brain structural changes may underlie the nonlinear relationship between sleep duration and cognition and mental health.© 2022. The Author(s), under exclusive licence to Springer Nature America, Inc.

基金

上海市卫生健康委员会卫生行业临床研究专项(202240371)
上海申康医院发展中心第二轮促进市级医院临床技能与临床创新三年行动计划——研究型医师创新转化能力培训项目(SHDC2022CRS053)
上海市皮肤病医院引进人才科研基金项目(2021KYQD01)
上海人才发展基金资助项目(2021SHRCFZ01)
上海市医院协会医院管理研究基金项目(X2022117)
上海市皮肤病医院IIT基金项目(LCIIT-2023-14)
PDF(1574 KB)

397

Accesses

0

Citation

Detail

段落导航
相关文章

/