从读到写

基因是生命的语言,在过去几十年里,基因组测序和合成的过程,就是一部生命语言的发展史。在日前的”尹哥的深夜课堂“里,华大基因CEO尹烨博士以《基因传:从读到写》为题,和我们分享了这部磅礴辽远的发展史。
真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO

一、生命语言的读

真·基因传:从读到写-肽度TIMEDOO
和人类的传统语言认知一样,人类对生命语言的掌握也是从最初的“读”开始。Sanger 测序初露端倪1965年,美国康奈尔大学的生化学家罗伯特·霍利(Robert Holley)采用类似蛋白质测序“化整为零”的方法,耗时7年(3年分离RNA,4年测序)测定了一条只有77个碱基的酵母转运RNA序列。这算得上第一个被测定序列的核酸分子。而他也在1968年与尼伦伯格、获拉纳一起分享了当年的诺贝尔生理学或医学奖。

1977年,弗雷德里克·桑格(Frederick Sanger)用双脱氧法测定了噬菌体φX174的基因组序列,长度为5386个碱基,这是人类第一次测定一个生物体完整的基因组。但事实上这是指第一个DNA的基因组测定,第一个RNA的基因组测定其实是噬菌体MS2,由比利时根特大学的瓦尔特·菲尔斯(Walter Fiers)在1976年鉴定并公布,比前者早一年。也正是基于桑格的第一个DNA噬菌体测序,估算一个碱基的测序成本约为10美金,这就是最早人类基因组计划预估300亿美金的由来。

1980年,桑格与沃尔特·吉尔伯特(Walter Gilbert)和保罗﹒伯格(Paul Berg)一起分享了诺贝尔化学奖,成为历史上唯一一位两次荣获诺贝尔化学奖的科学家。

利用Sanger双脱氧终止法的测序原理,结合荧光标记和毛细管阵列电泳技术来实现测序的自动化,很多物种的基因组破译得以实现。Sanger测序技术的优点是测序读长长,能达到800-1K bp,且用时短,只需要几十分钟即可完成一次测序,准确度高达99.999%,目前仍是测序的金标准;2001年完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。缺点是通量低、成本高,影响了其真正大规模的应用。

此后,第一个测序的模式植物拟南芥于2000年完成。重要的粮食作物水稻基因组于2002年完成,第一个测序的家禽家鸡基因组于2004年完成,高重复玉米基因组于2009年完成,这几个项目华大都深度参与了。

真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO短读长测序快速崛起2010年,大熊猫基因组测序研究项目完成,绘制出基因组精细图。这是中国科学家第一次全面系统地对大熊猫基因组进行测序研究,也是全球第一个完全使用短读长合成法测序技术完成的基因组序列图,全部组装和分析软件都是深圳生命科学研究院(原深圳华大基因研究院)自主编写。这一成果证明了短序列也能组装成完整基因组,并成为基因组绘图的国际标准,集中体现了中国的科技竞争力和中国科学家的创新能力。

短读长测序系统在2005-2007年因其可同时进行大量平行测序反应而广为人知。这些系统可以同时分析百万甚至上亿个序列反应。短读长测序技术相比Sanger测序大幅降低了成本,保持了较高准确性,并且大幅降低了测序时间,将一个人类基因组测序从数年降至几天之内。

自从有了短读长大规模高通量并行测序技术,行业真正进入到物种破译的“寒武纪”。2011年的土豆基因组、2012年第一个软体动物牡蛎基因组、2012年第一个六倍体物种小麦基因组、2013年复杂昆虫小菜蛾基因组、2014年火炬松基因组(迄今最大的植物基因组)的测序相继完成。

真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO
长读长测序法高质量的参考基因组对研究非常重要,但是某些复杂动植物基因组(高重复序列、高杂合率)一直是基因组组装的难题。测序技术经过Sanger技术、短读长技术的发展,读长从最初的近1000bp降到了几百bp,通量和速度大幅提升。为了弥补了读长较短的劣势,长读长测序技术应运而生。最大的特点就是单分子测序,测序过程无需进行PCR扩增。

长读长测序技术以其独特的长读长优势,可以很好地解决复杂基因组组装的难题。2015年发表在Nature上的复活草基因组文章,利用纯长读长测序技术完成,相比短读长测序的动植物基因组,在组装质量上有了很大改善 。

2016年海马基因组、银杏基因组,2017年人参基因组、潘那利番茄基因组,2018年六角恐龙/蝾螈基因组(迄今为止最大的基因组)、3000株水稻项目纷纷完成。其中3000株水稻项目首次实现了在顶级期刊Nature中使用汉字。2019年,首次对整个云南瑞丽植物园的761份样本进行全基因组测序,在植物研究史上添上了浓墨重彩的一笔。

真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO真·基因传:从读到写-肽度TIMEDOO

二、生命语言的写

真·基因传:从读到写-肽度TIMEDOO
和人类对语言的认知规律一样,当我们知道了基因的序列就是生命的语言,会读了必然要去写。对标到基因语言上,合成基因、染色体就像最初开始写句子、日记,合成物种相当于已经写出华丽的文章来了。从1828年的尿素合成到2017年的酵母基因组合成,尹烨博士细数了一百多年来的生物合成史上的关键节点,涵盖了氨基酸肽链、维生素C、奎宁、蛋白质牛胰岛素、叶绿素、青蒿素、多利羊克隆等重要合成技术突破,展示了波澜壮阔的合成生物史。
真·基因传:从读到写-肽度TIMEDOO
2017年3月,作为基因组合成领域的科学里程碑项目—— “人工合成酵母基因组计划(Sc2.0 Project)”在国际合作组的通力协作下,取得了重大突破性进展。国际协作组宣布完成2号、5号、6号、10号和12号这5条染色体的从头设计与全合成,并从多个方面进行了深入分析,最终获得与普通酵母菌高度一致的人工合成酵母菌。人造酵母新生命的诞生,标志着合成生物学里程碑式的进展。这个领域的快速突破,将变革生物制造、医药、能源、环境、农业等领域,带来颠覆性的发展。

三、生命语言的发展和未来

生物合成的未来就是测序的现在,可以说,科技服务未来在于合成生物学。
真·基因传:从读到写-肽度TIMEDOO
在演讲中,尹烨博士对比读写成本,引出SZ Index概念,指出大规模自动化的大片段基因组DNA合成技术是未来基因组合成中提高效率和降低成本的重要手段,总体成本应降低到每碱基1美分,是国际上未来的发展趋势。
真·基因传:从读到写-肽度TIMEDOO
工欲善其事必先利其器。第一个人类基因组草图经6个国家的精英科学家、耗时13年、耗费38亿美金;第一个中国人的基因组耗时数月、耗费300万美金。随着测序技术的迅猛发展,个人全基因组测序的费用以超摩尔定律的速度下降。华大在2015年底推出了自主测序平台BGISEQ-500,并于1年后推出600美元的WGS产品,引领业界真正进入了百元基因组时代。WGS是目前大规模获得人高质量基因序列信息的主要手段,这些海量的数据将被用于评估个人健康和疾病,是助力精准医学的第一步。此外,华大还先后提出了“生命周期表”计划和“地球生物基因组计划”,旨在对已知物种进行测序,寻找基因组之间的关联,进一步挖掘隐藏在数据背后的生命规律。

四、不应被遗忘的“基因传”

在演讲的最后,尹烨博士特别分享了自己对于畅销书《基因传》的补充意见。作为一部以“传”为记、影响广泛的科普通识读物,《基因传》却忽略了部分华人在基因测序发展史上的标志性事件,实在令人遗憾。尹烨博士现场列举了其中几点。人类染色体数目之辨1923年,著名的美国遗传学家佩因特得出人类染色体数目是48条的结论,并长达30多年无人质疑。直到1955年12月22日,华裔科学家蒋有兴在显微镜下观察到了人胚细胞的染色体,得到了46条的结论。随后,他又进行了更进一步验证,并把写好的论文送到Heredity杂志,最终在1956年4月发表。结论震惊了当时整个细胞遗传学界,并很快得到了很多其他实验室观结果的验证。人们最终接受了”人类染色体数为46条”这个科学事实。

首次合成结晶牛胰岛素

1958年,我国科学家提出人工合成胰岛素的设想,当时国际上最高的科研水平,也只能合成由19个氨基酸组成的多肽。胰岛素虽然是相对分子质量较小的蛋白质,但是也由17种、51个氨基酸、两条肽链组成。经过6年多的艰苦努力,1965年9月17日,中国科学家首次用人工方法合成了结晶牛胰岛素。

真正的DNA测序之父——吴瑞

1968年至1972年的几年时间里,康奈尔大学的华人科学家吴瑞在DNA测序方面发表多篇文章。其中吴先生1968年的第一篇论文测定了DNA的碱基组成,1970年的新文章既测定DNA碱基组成又测定出顺序,是真正的DNA测序第一人。而在吴瑞先生工作的启发下,Sanger深入研究,改进了之前的方法,才最终确立了DNA测序的主流方法Sanger法。在DNA测序史上,吴瑞先生的贡献不应被忽略。

来源:华大科技市场部