【医学信息学】研究和统计——队列研究和数据分析
以下仅为笔者在学习过程中的个人总结,如有错误,敬请指正 :)
什么是队列研究
队列研究是一种临床研究方法,属于观察性研究。
定义:
特定的人群按照暴露、未暴露于某种因素分为两组,然后追踪一定的时间,比较两组发病或死亡的结局,从而研究暴露因素与结局的关联。
目的:检验病因假设、评价预防的效果、研究疾病的自然史
分类:固定队列、动态队列
类型:前瞻性队列研究(所研究的疾病发病率或者死亡率一般不低于千分之5)、回顾性队列研究、双向队列研究
队列研究的关键指标
危险因素
主要危险因素
可能危险因素
研究结局
发病、死亡、分子标志(血清学指标、分子标志物)
结局的测量应客观、明确、严格;采用国际或国内通用的标准
研究现场
研究人群
样本含量
暴露资料收集与随访
1.基线资料的收集
2.随访
1)随访期:根据疾病的潜伏期(病因作用到临床发现)和暴露与疾病的联系强度做出
2)随访间隔时间:根据具体情况而定,慢性病间隔时间一般为1-2年
3)失访的处理:如果暴露组与为暴露组的失访率相似,失访者和未失访者的结局发生率也相似,则失访将不会产生偏移。所以应尽可能取得失访者结局的信息,或从失访者中抽取样本调查其结局。
比较现实可行的方法:把失访者与未失访者的基线资料中的一些特征加以比较,如果差别不大,则可嘉定结局发生率的差别可能也不大。否则,对选择偏移可能产生的影响应有充分估计。
数据分析/统计
暴露和疾病关联强度指标的计算
相对危险度((Risk Ratio,RR)=率比
定义:暴露组某发病率与非暴露组该病的发病率之比。
RR=暴露组的发病或死亡率 /非暴露组的发病或死亡率
意义:RR说明暴露组发病(死亡)的危险性是非暴露组的多少倍
估计总体的范围,应考虑抽样误差的存在,需要计算其可信区间,通常用95%可信区间:
风险比((Hazard Ratio,HR)
定义:暴露组某发病率与非暴露组该病的风险函数之比。
HR=暴露组的风险函数 h1(t)/非暴露组的风险函数 h2(t) (t 指在相同的时间点上,风险函数指危险率函数、条件死亡率、瞬时死亡率)
*HR主要通过 COX 回归分析得出,需要用软件来算。
意义:RR说明暴露组发病(死亡)的危险性是非暴露组的多少倍
HR 与 RR的区别
1)两者均用于前瞻性研究,HR与RR 意思差不多,但HR 还考虑了时间因素,包含了时间效应的 RR 就是 HR;
2)从终点时间的角度来看, RR 考虑了终点事件的差异,HR 不仅考虑了终点事件的有无,还考虑了到达终点所用的时间及截尾数据。
模型校正
为什么要进行模型矫正
混杂因素
在现实中,疾病的发生往往不是单一因素作用的结果。比如:假定吸烟的人都不太喜欢吃水果,而水果摄入过少也可以导致肺癌。因此很有可能出现一种极端的情况,其实吸烟与肺癌无关,我们之所以在队列研究或病例对照研究中观察到了吸烟与肺癌的关系,完全是“吃水果”作怪。此时,我们将“吃水果”称为“混杂因素”,即表示他们可能会干扰暴露因素与结局变量之间的关系。
怎么进行模型校正
为了排除混杂因素的干扰,需要在统计学上做一些校正,比较常用的方法就是 Cox 风险比例模型和 logistic 回归模型。
在多因素回归分析中,不管是多重线性回归、logistic回归、还是Cox回归,通常的做法是,将我们在研究中关注的暴露/处理因素,以及可能的混杂因素一同放入到回归模型中进行拟合,如果模型显示暴露/处理因素对结局事件的效应值有统计学显著性,则可认为在“调整了”(Adjusted)其他混杂因素的影响后,该暴露/处理因素对于结局事件是一个“独立”(Independent)的影响因素。