生物标志物的组学应用思路
日期:2018-09-13

  生物标志物是指可供客观测评的某种特征性生化指标,通过对它的测定可以获知机体所处的生物学进程。检查一种疾病的特异性生物标志物,可对疾病的诊断及预防起到关键作用。


  在医学研究领域,生物标志物的研究思路,一般分为三个阶段:标志物的筛选(Discovery),标志物的验证(Verification)和标志物的确认(Validation)。标志物的筛选通常需要借助高通量的组学手段,对大规模临床样本进行代谢组学或蛋白组学测定,筛选到具有统计学意义的差异代谢物或蛋白,经过一系列复杂的生物信息学分析,筛选出目标生物标志物。接下来的验证阶段,需要对更小范围的生物标志物进行靶向蛋白质组学或靶向代谢组学的大样本量验证,统计分析,计算靶标标志物的特异性与灵敏度。如果想要自己的研究结果更加完整,还可以利用临床样本,结合临床数据进行补充验证,如ELISA、WB等。


14.png


  2017年,由德国格赖夫斯瓦尔德大学在Gut(IF=17.016)期刊上发表的题为“Metabolicbiomarkersignaturetodifferentiatepancreaticductaladenocarcinomafromchronicpancreatitis”的研究就是运用代谢组学技术确定生物标志物的典型实例。


15.png


  临床上,胰腺癌被称为“癌症之王”,是预后最差的恶性肿瘤之一。而慢性胰腺炎(Chronicpancreatitis,CP)是胰腺癌的危险因子,且临床上两者之间难以区分,容易导致早期胰腺癌的误诊和治疗的延迟。由于原有的标志物效果不佳,这一系列事实促使研究者们努力寻找其替代性生物标志物。


  此研究中,共招募914名受试者,分别为:胰腺导管腺癌(PDAC,271位)、慢性胰腺炎(CP,282位)、肝硬化(LC,100位),以及健康献血者(BDs)和术前非胰腺疾病患者的261份对照样本,采用脂质组学(非靶向分析,类固醇和脂质)在内的LC-MS和GC-MS多种代谢组学平台对914例样本进行检测(图1)。应用三阶段生物标志物开发策略(探索集,训练集和测试集)共鉴定到477种代谢物。


16.png

图1实验设计


  最终基于代谢组学数据研究结果找寻到了9个潜在的生物标志物,将这9个代谢物与现有胰腺癌诊断血液指标CA19-9联合使用,组合标志物群甚至可检测出98%的可切除胰腺癌,准确率达90.4%。组合标志物的AUC显著高于CA19-9的AUC(0.94对0.85,p<0.001),敏感性(89.9%比74.7%,p<0.01)和特异性(91.3%比77.5%,p<0.05)也显著改善(图2)。


17.png

图2 生物标志物的ROC曲线


  不仅仅是代谢组学,在一些疾病生物标志物的研究中,蛋白质组学的应用越来越广泛。且多组学技术的应用大势所趋,接下来让我们通过另外一个研究实例向大家介绍多组学技术在筛选生物标志物过程中不可或缺的作用。


  案例二同为德国格赖夫斯瓦尔德大学2017年的研究,其成果被刊登在BMCMedicine(IF=8.097)杂志上。题为“Plasmaproteomeandmetabolomecharacterizationofanexperimentalhumanthyrotoxicosismodel”。研究者旨在筛选表征人血浆促甲状腺激素(TSH)和游离甲状腺素(FT4)相关特征的生物标志物。利用甲状腺毒症模型进行研究,又通过随机森林经过两阶段交叉程序,验证筛选的生物标志物是否可以区分甲状腺功能异常。


18.png


  研究策略:


19.png


  经代谢组、蛋白组数据统计,共鉴定到380种代谢物与497种人类蛋白质(图3)。为确保数据的可用性,通过过滤分析,只挑选缺失值低于40%的代谢物和蛋白质用于后续分析,即349种代谢物和437种蛋白质进行下一步的分析。


20.png

图3 差异代谢物功能富集分析(左)、差异蛋白功能富集分析(右)


  为寻找新的biomarker来分类TH状态,研究者通过两阶段交叉验证程序建立了一个随机森林分类器,综合分析差异代谢物和差异蛋白。最终,获得包含代谢物和蛋白质在内的15个物质(图4)。30次验证结果均显示出稳定、良好的分类能力,可以作为潜在的Biomarker。


21.png

图4 生物标志物筛选


  以上两篇高水平论文,分别基于代谢组学,和代谢+蛋白组学的方法筛选出了差异代谢物和蛋白。结合相应的验证分析筛选出目标生物标志物。