NCBI一搜肿瘤的分析风险模型作为不可或缺的一部分,几乎是每一篇生信文章必不可少的部分,那么我们到底怎么理解模型呢?
准确来说,模型分两种,一种是诊断模型,一种是预后模型,我们常规说的风险模型,狭义上指的是预后模型,广义上指的是风险/诊断模型。
在肿瘤分析中,预后模型比较多,通过几个关键基因,重新拟合一个得分,用于综合评估这几个基因的效果,并使用生存数据对其进一步分析其与预后的关系。
而在诊断模型中,其中步骤也是类似的,通过重新拟合新的得分,该得分为几个基因共同作用的结果,最后使用0-1分类,疾病为1,非疾病状态为0,计算这几个基因共同作用下对于疾病发生(或者转移等等)的效果。
目前生信豆芽菜提供了一些分析工具,但是需要进行组合,我通过学习这部分的内容,进行总结,如果写的不好,敬请见谅。
今天来讲第一个最为经典的单因素cox分析+lasso+多因素cox分析(逐步回归)构建风险模型
生信分析 – 生信豆芽菜 – 专门做分析的生信平台. (sxdyc.com)
这里选择风险/诊断模型构建
主要是通过红色框出来的四个工具进行完成的
1、单因素cox分析
这一步几乎是预后模型中必须要做的一步,目的是为了筛选预后相关的基因集,这样在后期建模绘制高低风险组的KM曲线容易出阳性结果
这里只需上传两个文件,一个是表达谱矩阵,一个是生存数据
生存数据,包含三列,顺序不能变,第一列为样本,第二列为生存时间,第三列为生存状态
这时候选择单变量的cox分析即可等待结果。
文章中大多数的阈值为p<0.05,p<0.01,p<0.001,p<0.005,p<0.0001。
筛选预后相关的基因后,这时候就可以进行下一步分析了。
2、lasso分析进一步压缩基因范围
lasso的目的其实更多是为了解决共线性的问题,所以在lasso分析的时候,不是基因越多越好,我曾经遇到过用了1000个基因进行分析,结果压缩后,基因数量变成了0,当只有20个基因进行lasso分析的时候,可能就剩下了十几个。
当然用多少基因,其实都是可以的,大部分的文章可能都保证在100-200个左右
跟单因素cox分析很像,上传基因表达谱和生存数据,同时上传一个需要进行lasso分析的基因列表
为什么这么设计,我估计是当时设置这个分析的人,不想让大家自己再去提取特定基因表达矩阵,这样简化用户的工作量吧。
这一步分析并不是预后模型构建不可少的,如果单因素cox分析筛选的预后相关的基因比较少,只有十几个,可以选择不做lasso分析。
3、多因素cox分析构建风险模型
在这一步中,其中有一个隐藏的步骤,逐步回归,逐步回归可以对较多的基因数量进一步压缩,但是要记得他对基因数量压缩能力不高,一般都是有个十几二十个基因的时候,用该方法进行压缩。
文件上传极其简单,还是三个,需要注意的时候,需要根据基因的数量选择是否进行逐步回归分析,并展示构建风险模型后的KM曲线和AUC,默认是展示1,2,3,有几个时间写几个就好。
4、独立数据验证风险模型的鲁棒性
在分析时候,往往会引入独立数据集验证风险模型的鲁棒性
这里需要传入一个基因系数,这里会使用训练集的基因系数计算验证集的风险得分,同时使用KM和AUC进行评估。
一般默认AUC 要达到0.7,才认为风险模型还可以。