服务热线:020-2810 1017
快速注册|English
计算医学:跑在超算上的医学
2020-03-0239

更多学术热点资讯,关注微信公众号:艾思学术+扫码_搜索联合传播样式-白色版.png


谭光明(左)与张春明正在分析数据。


2019年对于吴双(化名)而言是最难熬的一年。年初,本以为是一场普通感冒引起的咳嗽,却未曾想到在3个月后被诊断为中央型肺腺癌第四期,纵隔淋巴转移,伴远端肾上腺转移。


“拿到诊断报告的那一刻,我没有掉一滴眼泪。”说这句话的时候,吴双转头看向窗外,故意将视线避开了记者的目光,但眼角却渗出晶莹的泪水。


吴双,41岁,是一位都市职业女性。患病后,她和家人跑遍了北京多家知名的三甲医院,尝试过靶向药物、化疗、中药等办法,但病情都没有得到缓解。“我还特地花了一万多块钱做了肿瘤基因检测,很遗憾,报告显示是没有可用药的基因突变。”


没有相应的“可用药”,又不能通过手术和放疗进行积极干预,这在临床上只能“盲”用药,即尝试使用临床上常用的一些药物进行治疗,再定期评估治疗效果。但通常盲用药物治疗的效果只能“听天由命”,而在医院,像吴双这样的患者大有人在。


“即便能检测到相应的基因突变,靶向药物对不同患者的疗效也并不相同。”中国工程院院士、中国医学科学院肿瘤医院主任医师孙燕表示,肿瘤的发生是多基因联合“发力”的结果,虽然通过基因检测等手段可以得到海量的数据,但现有的认识仍集中在个别基因与治疗肿瘤的关系,比如携带了致病性突变的BRCA1/2基因与乳腺癌、卵巢癌的关系,突变的EGFR基因与肺癌的关系等。“是否还会有其他基因的参与、每个基因发挥的作用如何,我们不得而知。”


其实,孙燕的这种困惑,也正是目前肿瘤领域最让人“头疼”的难题。对此,中国科学院计算技术研究所高性能计算机研究中心主任谭光明在接受《中国科学报》采访时表示,当前,生物医学大数据的规模和产生速度远远超出了普通规模计算机的处理能力,急需超算助力科学家从多维、立体、融合的数据中摸索出规律,从而更精确地辅助疾病的诊断和治疗。


“查字典”式的有限应用


自人类基因组计划启动以来,以下一代测序技术(NGS)和质谱技术(MS)为代表的各类组学技术得到了飞速发展,再加上传统的显微镜技术、生化方法、免疫组织化学方法、生理体征检测和临床影像拍摄技术等数据源的聚集,使海量生物医学数据呈现指数级增长态势。


不可否认,即便尚未引入信息科学的大型工具,这些大数据也赋予了医生和临床科研人员更多、更细致的维度去了解疾病发生发展过程,大大拓展了医学研究的深度和广度。


“比如,目前对一些明确的、单基因突变引起的疾病,基因组测序已经能实现精准诊断,帮助临床更好地区分不同疾病、施以更恰当治疗。”北京大学第三医院病理科分子病理实验室武睿博士表示,21—三体综合征、新生儿遗传耳聋基因筛查等都是测序技术在临床的良好应用。


但是,对于复杂的、多基因改变引起的疾病,我们尚不能有效地解读患者的生命数据信息。以癌症患者为例,绝大多数突变都具有“个体特异性”,除了个别基因(例如EGFR等),同一个基因在不同患者中能找到相同突变的可能性微乎其微。不过,若从数据呈现的网络调控模型来看,特定信号通路上的关键节点基因尽管发生了不同突变,但驱动的下游细胞内事件可能是相同的。


现在生物医学专家习惯性地将基因组数据与已有的知识体系进行“查对”(俗称“查字典”)。“虽然这种方式在一定程度上解决了相应问题,但人体的复杂程度绝对是超乎想象的,真的有一本‘字典’可查吗?”哲源科技(中国科学院计算技术研究所孵化的一家构建生命数据解析平台的人工智能企业)首席运营官赵宇表示。


“这就需要我们有将生物学、医学相关学科的知识转化为数学模型的能力。”中国科学院计算技术研究所副研究员、中国科学院计算技术研究所西部高等技术研究院常务副院长张春明表示,应充分利用现有的生物医学数据,引入系统科学理论和视角,通过设计新的算法挖掘数据之间的关系,为解决现有的问题寻找新的路径。最终,以生物医学大数据推动生物医学研究由原来的假设驱动向数据驱动的方式转变。


算法与算力助力大数据应用


但长期以来,医生们受循证医学训练,更为强调“可靠”的知识。他们善于采集大样本的临床数据,并将基础理论的研究与临床经验相结合,最后把临床数据总结成临床诊疗指南与路径。


在精准医疗时代,清华大学人工智能研究院教授杨斌认为,应该在循证医学的基础上,更强调患者个体的个性化诊疗,通过对患者的数据分析并结合临床经验,给出最佳治疗方式。


“传统循证医学以群体证据作为核心依据,往往无法解释个体差异。而精准医学从基因、环境等个体因素考虑疾病在个体的发生发展过程和治疗应答,与仅考虑患者共性的传统循证医学相比,能更好地诠释个体差异,更好地提供个体化的药物治疗方案,更安全、更有效、更合理地配置医疗资源。”中国工程院院士、中国医学科学院北京协和医学院院校长王辰说。


此外,中国工程院院士樊代明也指出,传统的生物医学数据分析思维和方法难以适应大数据分析的需求。生物医学大数据实现了以患者为维度的多源数据的整合,需要分析的数据如此之多,因此不再只依赖分析少量随机抽样的数据,也不再热衷于探求数据之间难以捉摸的“因果关系”,而是更多关注数据的“相关关系”。与传统随机对照研究常用差异性统计分析方法不同,生物医学大数据更多采用数据模型以及控制混杂的统计分析方法。


那么,即便有了高质量的生物医学大数据,有了相应的算法,就一定能摸索出疾病的发生发展规律么?


谭光明给出的答案是否定的。他表示,光有数据和算法还远远不够,必须要有强有力的算力支持。他举例道,过去单一零散的数据,只需要在普通服务器上用简单程序处理和统计就可以;现在是多维海量的大数据,为了解决复杂生物医学问题,要用多维海量的PB级(1PB=106GB)大数据对生命进行建模,那就要设计复杂的算法,而算法的复杂度和计算量远远超过了普通服务器所能处理的规模,急需高性能的算力资源支撑。


计算医学扛起数据分析的“大旗”


“基于此,面向人类健康大数据,我们不能简单地将其理解为需要大规模存储和处理的数据。大数据的概念有别于统计抽样,它不是根据小规模抽样调查来推测被观察对象的全貌,而是试图用对该对象的所有测量数据来刻画对象。因此,大数据泛指能全面刻画客观对象所有数据的集合。”中国科学院计算技术研究所—哲源图灵达尔文实验室主任牛钢表示。随着数据量呈指数增长,数据更新速度不断加快,精准医学若想早日落地,急需计算机驱动的临床决策支持系统。


这在谭光明看来,势必会产生一门新型交叉学科——计算医学。“它致力于发展定量方法,通过应用数学、工程学和计算科学来智能化理解人类疾病的机理,并基于工业化的数据、算法、算力及生物医学技术体系为医学服务提供新洞见。”


对此,谭光明从四个维度阐释了计算医学的内涵。首先,计算医学以复杂性系统科学的整体论作为思维方式,去理解生物分子、细胞、组织器官、种群等多个生物层级结构之间相互作用中“涌现”出的新属性,从系统的角度去捕捉疾病发生的机理;其次,计算医学采用密集数据驱动的科学范式,挖掘隐藏于高维、高通量、多维融合的生物医学大数据中的新洞见;再次,计算医学将生物医学领域的知识模型转换为数学模型,以生物医学大数据作为输入参数,以人工智能算法对模型进行迭代、训练,输出逼近于真实的生命系统结构与功能特征,从而理解疾病发生的本质;最后,计算医学以高性能计算为新一代计算基础设施,为新科学发现提供数据存储、计算精度和计算速度上的支撑。


“循证和计算都是实现精准的技术手段,计算医学在更高维度上实现了循证。”张春明表示,未来,以基因测序为代表的数据生产一定会迎来免费的时代,数据挖掘成为最终的价值出口,立足生物医学的科研和产业需求,我们构建了“生命信息引擎”,该引擎归根到底就是面向生命医学数据的计算机系统,屏蔽了海量数据的管理、理解和计算等方面的技术细节,让生物医学专家能够便捷地利用信息技术解决行业问题。


文章开头提到的吴双,最后借助“生命信息引擎”给出的数据分析结果,采用了一种可能的治疗方案。目前,经过这一方案治疗,她的体内已经没有影像可见的肿瘤,血液肿瘤指标也回落至正常水平。


最后,张春明呼吁,生物学家、医学专家和计算科学家携起手共同丰富计算医学的内涵,以期将疾病的预防、诊断和治疗推向精准。


作者:张思玮

版权申明:本文来源中国科学报,版权归原作者所有。

文章转摘只为学术传播,如涉及侵权问题,请联系我们,我们将及时修改或删除。

分享:
打开微信扫一扫
收藏0
点赞0