首页 > 报告 文稿 社会
陈润生:基因组、大数据、精准医学
2020年03月13日 11:24
陈润生 中国科学院生物物理研究所研究员
当今,大数据、人工智能在各行各业都已显现出其重要性,医疗领域也迎来了大数据时代。随着医学界对人类遗传基因密码的破译,一个具有颠覆意义的精准医学时代正悄然到来。面对疾病,人们不再被动,而是可以主动出击。我们将从精准医学的核心、精准医学给医学界带来的本质性变化、实现精准医学的基础、目前精准医学的发展阶段等方面展开,全面生动、深入浅出地分析了精准医学、基因组、大数据的主题。
在探讨生物医学热点之前,我们先一起来回顾一下中学时期的生物学知识。我们知道,所有的生命,包括人,都是由细胞组成的。细胞里面有一个细胞核,细胞核里面有很多棒状的东西,即染色体。我们现在证明,染色体是遗传物质。我们一代传一代的信息、知识就存在在细胞核里的一个个染色体中。那么,遗传物质到底是什么?染色体是什么?我们把它拉长了,大家可以看到,它是一个很长很长的分子,也就是所谓的DNA。遗传物质不同,人也就有了差别。遗传物质如果变得不正常,就有可能导致疾病。
为什么说这个很长很长的分子跟我们的遗传有关?大家知道,人的染色体有23对,其中22对都是一样的;每个染色体都有两个,一个来自父亲、一个来自母亲;最后一对染色体,即性染色体,如果是不一样的就决定这个出生的是男孩,如果一样则出生的是女孩。其中,如果第13号染色体多了一块,就会导致婴儿的先天愚型。这就说明,这个遗传物质是不能动的,动了以后就带有遗传上潜在的危险。我们再从分子上看,这个很长很长的遗传密码是由四个不同的元件组成的,也就是四种符号。一个人的遗传密码到底有多长?约30亿个字符。如果测完自己的遗传密码,想把你的遗传密码装订成书,一页打上3000个遗传密码、100页订成1本书,可以订1万本,每本1厘米的话就有1万厘米,有40层楼房高。
最近三十年,人类生物和医学历史上有一个划时代的进展,就是我们可以测量任何一个人的遗传密码了,即人们可以从遗传密码的分子水平上来看待生物学、医学。由于这个遗传密码是一个很大的数据,生物医学也进入了大数据时代。2015年,美国总统奥巴马在白宫提出2015-2016年国情咨文,特别讲到鉴于整个科技的发展,美国要启动所谓精准医学(Precision Medicine)。全世界进入了精准医学时代,其背景就是以遗传密码为代表的划时代的进展。2015年,我们国家也布置了精准医学计划。经过2015年,我们国家的重大专项精准医学进入了实施和评估阶段;到2016年,大约有60个关于精准医学的项目已经实施,国家大约投资了10亿人民币。所以,我们国家的精准医学也在跟国际同步发展。
一、精准医学的核心是什么
精准医学这个词已经被大家普遍谈论,不止精准医学,精准农业等概念也都出现了。精准医学在学术上的含义到底是什么?非常简单,精准医学就是组学大数据与医学的结合,换句话说就是把遗传密码研究以来出现的新信息用到医学,特别是临床医学上的工作。
自从人的遗传密码被破译以后,人们发现不同的人的遗传密码是不一样的,所以才导致每个人都不一样。更重要的发现是,得了一些重要疾病,比如肿瘤的病人的遗传密码跟正常人相比,某些密码的位点变了,所以才容易罹患肿瘤。也正因为破译了遗传密码,我们就知道,某些关键的遗传密码要是变了,一个人说不定就会罹患非常严重的病。比如年轻人突发脑血管、心肌梗塞等意外很大原因也跟遗传有关,也正因为有这些新的遗传信息,我们在诊断治疗中多了一些新的手段,使得疾病的预测更加准确。所以,精准医学之所以能够引起人们的重视,正是因为它增加了前所未有的信息,包括基因组、转录组、蛋白组、代谢组、表观遗传组。
遗传密码破译以后就先出现了一个词,叫转化医学。转化医学就是希望把新出现的遗传密码中的信息转化到医学中来。进而,针对每个个体、不同的遗传密码变化,施加不同的治疗,也就出现了个体化医学。精准医学就是在这个基础上被提出的,也叫普惠健康、大众健康。
美国著名影星安吉丽娜·朱莉有家族性乳腺癌史,曾祖母、祖母和姨妈都是因乳腺癌去世。她非常担心自己会重蹈家庭悲剧,因此她去做了基因检测。结果,她的基因检测显示体内携带乳腺癌基因BRCA1突变,患乳腺癌的风险高达87%,在此情形下,她与医生商量后进行了预防性乳腺切除,把乳腺癌风险降低到了5%以下。我们可以从这个例子看到遗传密码检测的作用,就是在没有发病之前先决定了有发病的可能,然后采取预防措施。
来自斯坦福大学医学院的MichaelSnyder领导完成了一项历时两年半的跟踪实验。他定期做抽血检查,跟踪监测细胞内的4万余种不同的分子的起伏变化情况:从激素到血糖,到免疫系统蛋白和突变的基因,无所不包。他也见证了遗传基因上易患糖尿病的自己,不久之后真的罹患此病。在这项研究中,Snyder对自己的基因组进行了测序。DNA检测表明,他罹患II型糖尿病的危险很高。虽然他的医生没有发现他正处于病情发展期的任何表征,他的自检还是查出了早期迹象。不久,他就患上了糖尿病。在确诊后,Snyder调节了饮食,加大了运动量进行减肥,控制住了病情。众多案例表明了有了遗传密码这些组学大数据以后,我们在应对某些严重疾病方面增加了更多的信心。
二、精准医学能使医学发生什么本质变化
(一)从诊断治疗到健康保障
精准医学不同于其他技术的革命,之所以引起各国领导人的重视,是其可能使“大健康”的理念发生本质的变化,也就是使整个健康体系的概念发生本质变化,如从现在的以诊断治疗为主发展到精准医学时代的以健康保证为主。这两个状态是非常不一样的,诊断治疗的对象是病人,医生对其实行治疗,设施是医院;健康保证时代由于我们可以测量遗传密码,所以关注的人群是全民,关注的时间是从出生到死亡,所以精准医学是面对全民、全生长周期的,即:通过组学大数据,对民众的健康进行评估,再根据结果提出干预方案。因此,在精准医学时代,医疗政策、药物管理等健康保证体系、健康保证对象都会发生相应的变化,这是涉及到国策的,所以各国领导人的重视是自然的。据统计,基于精准医学理念的个体化治疗市场规模日益扩大,2018年前全球市场规模将达到2238亿美元。到2020年,精准医学在全世界的产业规模可以达到1.89万亿美元。所以,这样一个市场规模也是各国领导人所关注的。
(二)精准医学研究已成为新一轮国家科技竞争和引领国际发展潮流的战略制高点
美国、欧盟、英国、日本都在推动自己的精准医学计划:美国积极推动精准医学发展,将其上升为国家战略;欧盟以精准医学理念指导其创新药物二期计划;英国开展十万人测序计划并成立精确癌症研究所;日本将精准医学相关内容列入科技创新计划中。国际上在基因资源利用、新药靶点发现、新的诊断治疗方法开发、生物医药新产品研发等的竞争进入新的阶段,对我国生物医药与健康产业的发展形成严峻挑战。
(三)产业化前景
精准医学的发展将带动相关产业快速发展,孕育巨大市场空间。
1.生物样本库和生物数据库
未来,精准医学几乎要涉及到每个人的遗传密码,那么就需要搜集千万人以上的血样、尿样或唾液。这就推动了生物样本库、生物数据库产业的发展,这个产业可能是100亿美元以上的规模。中国也已经成立了好几个国家样本库。
2.大数据测量
除了遗传密码之外,蛋白组、转录组等一系列数据的测量,推动了大数据测量产业。目前,测遗传密码的公司在国内已经有上千家了。
3.分子诊断
挖掘这些大数据来发现其与药物治疗、分子诊断相关的结果,也是一个被精准医学所推动的产业。通过测量遗传密码,我们可以发现某些疾病的分子标记,也可以推动新药的设计。
illumina公司推出的NovaSeq系列测序仪,以其无可比拟的通量、简捷操作、低成本以及灵活性将使基因组测序的成本降至100美元。要知道,1990年的时候,测一个人的遗传密码要将近100亿美金。从100亿美元到100美元,这意味着大家都可以测遗传密码了,而且人的遗传密码是稳定的,一辈子测一次就够了。
2017年,美国癌症协会发布的癌症年度统计报告显示,美国整体癌症死亡率经过二十多年来的稳步下降,终于使这一数据下降了25%,意味着1991年至2014年期间癌症死亡人数减少210万。这就说明,即使大家都很害怕肿瘤,但实际上由于先进科技的加入,肿瘤还是可以被治疗、预防的。在我们国家,虽然肺癌、乳腺癌等肿瘤疾病的数据还在上升,但只要我们把先进技术、先进成果纳入到诊疗系统中,就一定会向好的方向发展。国际五百强中的跟信息有关的公司,如飞利浦、IBM、微软等,都在组织团队分析数据,挖掘大数据中与肿瘤有关的解决方案。值得一提的是,我们国家的一些企业,如华为、腾讯也在独立做这些事。我们国家精准医学总的目标,是与国际一致的。
三、实现精准医学要有哪些基础
精准医学有那么大的市场,如果我们要组织团队搞精准医学研究,需要做好哪些准备?组建一个融合团队是重中之重。这个团队既要懂得如何测量遗传密码,也要懂得如何分析遗传密码。这样一个团队是不容易组建的:一是要能够获取遗传密码,也能够进行数据挖掘;二是要搭建一个能够把遗传密码与疾病关联起来的桥梁,即建立基因组跟表型的关联。
四、精准医学才刚刚上路
精准医学现在发展到了哪一步?精准医学刚刚上路,相对前沿学术内容,精准医学的发展还有很多困难、很多挑战,所以我们还有很远的路要走。
(一)基因组、转录组中的挑战——基因组中的暗信息
我们测量一个遗传密码的作用有多大?在不久的将来,花100美元,我们每个人都可以测自己的遗传密码。但是集中全世界科学家的努力,我们目前能够精确解读的遗传密码不超过3%,剩下97%我们没读懂。换句话说,我们精准医学的起步点,就是基于我们对遗传密码只知道3%的这样一个点上。那么随着时间的推移,我们了解的会越来越多。当我们对自身的遗传密码的解读达到90%以上的时候,我们就基本上达到“精准”了。
3%是什么?就是我们的遗传密码当中编码蛋白质的那部分,也就是遵循中心法则的那部分、传统意义上造蛋白的部分。也就是说,你现在测量遗传密码,如果肿瘤是由于这3%的突变引起的,那么遗传密码能提供给你很多信息;如果肿瘤是由于97%的突变引起的,那么现在的状态是不能判断的。当然,测一测还是有益的,毕竟对于那97%的研究是不断前进的,过几年就会有新的进展。2010年12月17日的Science(《科学》杂志)评选了人类进入21世纪以后,从2001年到2010年这十年,人类在自然科学领域的十个重要事件。其中,第一个便是“基因组当中的暗物质”。它讲的是,遗传密码大部分是暗的,即暗物质或暗信息,因为我们知道的只有人的遗传密码的极小部分,这就是我们当前理论上认识的疆界。
有人说那97%的遗传密码没有用,但其实那97%如果发生突变,一样会导致疾病。比如,Oncogene杂志在2004年的23卷中就发现97%的遗传密码中的名为PCGEM1的位点,如果发生突变会导致前列腺癌。此外,我们还发现,名为His-1的位点如果发生突变则会导致白血病;名为MALAT-1的位点如果发生突变则会导致非小细胞肺癌;名为H19的位点则扮演着类似于P53蛋白的角色,作为防御机制保护我们远离细胞癌变。所以,有证据证明,那97%的遗传密码参与了我们已知的所有生物过程,是未来非常值得研究的,也是大家所关心的领域。
(二)大数据带来的挑战
1.数据端的挑战
第一个挑战来自于数据源,即人的遗传密码。人的遗传密码是一个大数据,有两个特点:一是增速极快,因为全球的人们都在测量遗传密码,所以这是我们迄今为止知道的增速最快的大数据之一,国际上也有很多的数据库,人们面临着数据存储与分析上的困难;二是数据有误差,信噪比低、缺失值高、错误率高,所以从数据端来讲是有挑战的,比如现在的仪器不只是价钱降得很低,而且产生数据也很快。
发现DNA双螺旋而获得诺贝尔奖的沃森·克里克在测量他自己的遗传密码时,用了两个月,花费了100万美元。这发生在人类遗传密码的相关计划在世界上诞生十年左右的时间。现在,测量一个人的遗传密码的成本从100万美元降到了100美元。大家可以看到,没有哪一个数据、哪个仪器,发展如此之快。
此外,国际研究还有一个动向,那就是微生物组。通过对遗传密码的研究,人们的测序能力有了显著提高,从而可以研究人体内的微生物与疾病的关系。跟我们一起生活的微生物有多少?据统计,常态下,每个人体内大约有1-2公斤微生物。这些微生物与你有着很重要的关系,而现在由于有了大规模测序,它们也可以被我们研究了。进而,我们现在要处理的数据之多,并不完全是因为遗传密码多,而是要解决的科学问题也越来越复杂了。
2.样品端的挑战
虽然数据越来越多,但是要解决一个科学问题而取样,而样品却没有因为数据的增加,变得更容易获取。比如,我们要研究肿瘤,获取肿瘤病人的样品是很难的。要真正地研究,就要建立数学模型。数学模型里面有很多的变量,要研究这个肿瘤的话,其内部变量往往是1000、2000……这就要求这个数学模型要得到有益的解的话,样品数要跟变量匹配。如果说这个模型有1000、2000个变量,而我们取的样品(病人)只有100个,结果就是不可靠的。对此,我们可以通过国家行为来解决,如美国的精准医学计划,变量是1000、2000就测100万个病人,中国的精准医学计划也是要测100万人。
3.疾病相关的复杂网络
我们研究的这些基因之间有着复杂关系。对于一整个生物体来说,不应该孤立地考虑一个基因,而应该考虑基因的网络。这个网络是动态的、有向的、双色的、非线性的。总而言之,对于更为复杂一点的问题,我们只是研究孤立的基因是不够的,还要了解基因和基因之间的相互作用。
4.高度异质化数据的整合
我们要想了解疾病的关系,就要把遗传密码与心电图、脑电图、血糖血脂、CT、核磁等检查信息整合在一起。这就是所谓的不同介质的高度异质化数据的整合。医生在判断疾病时,仅凭组学数据是不够的,一定要跟常规检验的信息结合在一起。
怎么整合?这是一个更加复杂的问题。真正要对一个人做全信息的分析、观察疾病的本质,至少涉及六类数据:一是基础数据,如姓名、性别、年龄、治疗记录等;二是生理、生化检测,如心电、血压、血糖、血脂等;三是影像资料,如超声、核磁、断层、PET等;四是组学数据,如基因组、转录组、蛋白组、代谢组、表观组等;五是处治数据,如用药、手术等;六是环境资料,如微生物、大气、水文、地质、辐射等。
综合考虑所有六类数据,我们就会对一个人作出更加准确的判断。所以,我们在精准医学时代是会产生各种大数据的。对大数据的解析,则要求我们统一分析与疾病有关的范围更广的各种因素。对于如此庞大的数据量,我们可以选择的就是依靠人工智能。人工智能可以完成这六类数据的整合与分析,把高度异质化的数据整合在一起正是它的优势。
5.数据共享
大数据越来越多,如何做到国家层面的数据共享,这不仅仅是学界的问题,也是牵扯到国家管理层的问题。只有达到数据共享,我们才能在大数据时代,更好地完成工作,而避免小数据的影响。比如,中山医科大学和美国的一个大学合作,通过人工智能的帮助去观察眼底来发现黄斑变性。这也促成了人工智能对不同大数据的学习。同样地,人工智能也可以帮助我们分析基因组。
五、破解人类遗传密码 精准医学创新机遇无限
刚才讲到,关于精准医学,我们有太多事没做,其中最为重要的就是那97%还没被人们认识的遗传密码,就象征着无限的创新机遇。虽然这是一个非科学的词,无限的是不对的,因为遗传密码是有限的,但这种说法表明了那97%遗传密码为我们提供了太多太多创新机会。所以,我们老是讲创新,其实只要去分析人的遗传密码,就有很多的机会。
97%的遗传密码,有多少基因?我们认识的3%就有25000个基因,那97%里像蛋白一样的元件约有25万,是那3%的十倍。而从1900年到现在,人类仅对遗传密码中3%的内容做了研究,就造就了50个以上的诺贝尔奖获得者。那现在的97%呢?
(根据宣讲家网报告整理编辑,
未经许可,不得印刷、出版,违者追究法律责任)
责任编辑:王瑱
文章来源:http://www.71.cn/2020/0313/1079071.shtml