作者: 记者 胡珉琦 来源: 发布时间:2021-9-4 8:16:46
一门古老学科里的算力角逐

   最近一段时间,关于人类起源问题最引人关注的一则新闻,便是在中国东北地区发现了新的人类物种化石——“龙人”。不过,关于它在人类家谱中的确切位置,学界还存有争议,因为研究团队并未从该化石中获取到生物遗传信息(古DNA)。

   自从古DNA技术横空出世,它解决了古人类学、考古学中许多争执不下的难题,为这些学科的研究打开了一个全新的局面。进入21世纪,古DNA研究成为关注热点,在国内外团队争分夺秒展开科研竞争的背后,还关乎一场算力的角逐。

 

古DNA研究的力量

 

   古DNA是指从古人类和动植物遗骸以及古生物化石中提取的古生物分子。如果能从古老的化石和考古样本中获取到最原始的古DNA信息,与现代人类和动植物的遗传信息进行比较,就可以为人类及动植物起源与迁徙、文明传播与碰撞、历史争议问题给出直接答案。

   20世纪80年代,考古学家和分子生物学家把古DNA研究引入到传统考古学,形成了国际考古研究中的前沿领域——分子考古学。作为科技考古的重要手段,古DNA研究在解决人类的起源与迁徙、动植物的家养和驯化过程以及农业的起源和早期发展等重大考古学问题上起到了重要作用。

   进入21世纪,随着二代测序技术的普及,古DNA研究迎来了一个黄金发展期。中国科学家们也在分子考古的浪潮里大放异彩。

   早在1998年,吉林大学考古学系就与生命科学学院合作,成立了国内首个考古DNA实验室,开展有关古DNA方面的研究工作。如今,考古DNA实验室已初步建立了我国边疆地区的古代DNA基因库,有超过万例的古人类、古动植物样本,数量位居全国第一。

   据吉林大学边疆考古研究中心副主任蔡大伟介绍,正是有了这些强有力的资源支持,近年来,吉林大学考古学院运用古DNA优势不断创新和突破,在考古领域驱动了许多重要进展。

   例如,对“丝路”沿线不同时期的动物样本开展全基因组分析,重构了家养动物群体交流的时空框架,展现了“丝路”大通道在东西方文化交流中的更多历史细节;测定和分析了首例距今约3800年古小麦全基因组序列,探究现存小麦地方品种的栽培起源、扩散和遗传改良;报道了中国北方55个古代个体的全基因组数据,探讨了新石器时代农业革命以来中国北方地区的人群互动,为探讨中华文明的起源、形成和发展提供了重要证据。

 

制约古DNA研究的难题

    

   尽管古DNA研究进展飞速,但困难依旧不小。

   蔡大伟解释,古DNA研究主要分为两大部分。第一部分是通过实验手段,从古代生物遗骸中把DNA提取出来,并完成扩增过程。在有机体死亡后,其细胞中的遗传物质即刻开始降解,给DNA提取和扩增带来了极大的阻力。而且,研究还不可避免地会遇到现代基因的“污染”问题。

   第二部分则是测序及数据分析。由于古DNA基因序列片段比现代DNA更短,导致古DNA测序比现代DNA更复杂。以人类为例,人类基因组是由30亿个碱基对构成的,在得到古人类DNA碎片的序列信息后,考古学家需要借助生物信息学的手段将这些片段进行比对、组装,还原成和现代人DNA 一样完整的、高质量的全基因组。

   “这个过程就像完成一幅巨型拼图,没有强大的计算机软件和硬件支撑,是不可能完成的。”吉林大学生命科学学院副院长、边疆考古研究中心教授崔银秋直言。

   蔡大伟指出,早期科研人员通过通用的计算设备,比如通过中央处理器(CPU)去做基因组装,结果发现这一过程非常漫长,“一般完成一次古人类的全基因组样本分析需要耗时至少两周”。

   “我们希望把尽可能多的时间放在科学问题的分析和对成果的解释上,而不是消耗在对基础数据的处理和计算上。”崔银秋表示。这就亟需高性能计算和人工智能(AI)等新一代技术帮助科学家来加速这一分子考古的过程。

 

AI计算为分子考古提速

 

   那么,算力究竟如何才能帮助加速整个基因拼图的重构过程?

   浪潮人工智能和高性能产品线总经理刘军以和吉林大学考古DNA实验室的合作为例介绍道,浪潮采用了一套定制化芯片加速方案,能加速古生物基因序列的比对和拼装,再用AI的方法和手段,帮助科学家找到感兴趣的突变的基因。这套方案可以帮助考古学家在9.64 小时内完成全基因组分析,48分钟完成全外显子组分析,相比基于CPU的方案,基因数据处理速度提升了39倍。

   “这就意味着我们的科学家可以用原来四十分之一的时间完成古人类全基因组的比对和拼接工作。”刘军强调。

   由于DNA可以被复制,特别是当它从父母遗传到子女的时候,只要突变不会致命,那么这些突变也会被复制然后传递给下一代。因此,突变通过时间而不断积累,这就使得科学家能够找到遗传进化的特定链条,并且还可以通过积累的突变估算时间。

   “问题是,这些重要的突变基因在哪里?它们在整个历史长河中发生了什么样的演化?”刘军坦言,从这样的追寻过程中,我们才能真正清晰地回溯人类是如何走过这上百万年的演化历史的。

   “然而,完成拼接的基因组序列非常长,利用传统方法在上面寻找特定基因的变异过程,是一件极为困难的事,就如同大海捞针。”刘军表示,只有在AI的计算方法和手段的加持下,才能帮助科学家在基因的海洋里,找出他们最感兴趣的基因、重要的突变基因。

   刘军认为,“从这个角度来说,我们是在为这门古老学科创造一个实用工具,就像科学史上的显微镜、望远镜一样”。通过AI计算,服务科学家细致入微地获取过去得不到的客观证据,从而实现洞察历史的真相。

   刘军还特别提到,在AI计算与考古学研究结合的过程中,也反过来打开了计算研究的视野。“我们要向远处看、向深处看,科学的未来需要依靠怎样的计算技术去迎接挑战。”■

 

《科学新闻》 (科学新闻2021年8月刊 进展)
发E-mail给:      
| 打印 | 评论 |