2月18日,四川大学华西医院发布消息,该院生物医学大数据中心将人类全基因组测序时间从24小时缩短到7分钟,刷新了基因分析的“中国速度”。这也意味着,该项研究成果直接加速了基因测序从科研到临床的进程,未来将有更多精准的基因数据辅助于医疗诊断及治疗。
研发团队签署项目合作协议。采访对象供图
基因测序和分析技术现已应用于生育健康、肿瘤个体化诊断和治疗、遗传病、传染病检测、疫苗研发等领域。在该领域一个不可避免的“拦路虎”就是——时间。以四川大学华西医院启动的“十万中国罕见病患者全基因组测序计划”项目为例,按照传统技术30X人类全基因组数据分析24小时/例的速度计算,该项目投入100台计算机也需要30多年才能完成。
2021年6月,华西医院联合华为、赛乐基因组建联合研发团队,开展多组学数据加速分析平台系统的开发。面向大规模队列多组学数据分析应用场景,研发团队聚焦多组学数据分析“存、管、算”三个方向,包括开发多组学数据专项训练的存储自动分级技术,在数据分析过程中提供高I/O和低成本的存储方案;面向存储系统的管理维护者,研发基于逻辑层的组学数据全生命周期的存储管理系统;基于GPU异构并行加速技术,将原来在CPU上运行的bwa和STAR等分析软件重构迁移到GPU上,充分利用GPU运算高并发的特征,以满足高效、低成本完成组学分析的需求。
该项目负责人、华西生物医学大数据中心于浩澎副研究员表示,之所以能实现时间上质的突破,根本在于打破计算算力和储存性能的瓶颈。他将其形象地比喻为吃得快的“大嘴巴”和装得下的“大肚子”。前者实现了大文件的直通读取和小文件的聚合读取,数据读取的效率更高;后者可以对数据分析的各个作业流程进行融合调度的优化,I/O流更加顺畅,从而实现了“吃得更多、消化更快”。
他表示,研发团队在全基因组数据分析加速上,以GATK(The Genome Analysis Toolkit)流程为基础,最终完成了速度的飞跃,实现了30X人类全基因组测序胚系变异分析时间从24小时到7分钟的压缩,同时保证了分析结果的准确性:和GATK结果高度一致。