贝瑞十年 | 被Deadline催生的大数据库创新

发布时间:2020-05-26

讲述人:
张岩,贝瑞基因DBA。
2015年8月加入贝瑞,张岩入职伊始正是临床基因检测数据激增的时期,他参与了贝瑞基因数据库的搭建,并成长为一名具有基因大数据综合管理能力的IT技术主管。以张岩为代表的IT人默默地耕耘在基因行业,为公司快速扩张及未来布局奠定了坚实的基础。

 

每一次按质保量地提前交付给客户测序数据时,张岩都会感觉自己和同事们的付出又一次得到了认可,对基因大数据这匹“野马”又多了一些驯服经验。张岩所在的部门是一个容易被大多数人误解的部门,误以为他们只是负责公司的电脑、网络等事情,事实却是,IT部门提供的基因大数据综合管理方案对贝瑞基因而言是核心的存在。

 

贝瑞拥有业内数一数二的测序平台,不仅型号更新快,数据产出量也呈几何式上升,贝瑞的IT部门承担的任务也就越来越重。在这背后,贝瑞基因的IT工程师们,默默地全力以赴保证每一次检测快速且精准地完成、每一个检测数据得到安全保存。

 

张岩觉得,来到贝瑞机会与挑战并存,“基因大数据是全新的东西,我们常常是在遇到让人头痛的困难时,完成了大大小小的创新。”

 

比如,贝瑞数据拆分系统的诞生。

 

一个完整的测序服务流程包括样本处理、文库制备、上机测序、数据拆分、质控分析和交付五大步骤。交付数据并不是一个简单的环节,因涉及到数据拆分,需要强大的计算能力和海量数据的支撑。

 

“四年前HiSeq测序仪是贝瑞的主要机型,每次下机数据只有几十GB,相当于几十部电影的存储量,两三个小时就拆分完了,可以很快把结果交付给客户。可是,基因测序行业的发展速度太快了,很快公司有了NovaSeq测序仪,每次下机数据量达到了4TB,相当于近2000部高清电影的存储量,从几十GB到4TB,数据量增长超过了40倍。”张岩感叹道。

 

数据处理量的增加意味着当前体系下分析时间的增加,每次交付前的拆分时间会拉长到15-20个小时。那段时间,张岩他们总是接到其它部门催数据的电话,用张岩的话说,他们每天早上一睁眼就面临Deadline的连环夺命call。

 

之前公司采用了当时主流的“SGE集群+NAS存储集中式架构”,明显地现在这个架构有些吃力了。是升级这个架构还是彻底推翻重来,成为摆在IT工程师们面前的关键问题。

 

公司管理层和IT团队花了整整一周的时间,反复考虑行业增长趋势、数据增长趋势和现有系统的扩充性,最后一致认为:数据系统的改革,底层架构是重中之重,只有底层架构足够稳定、强大,日后再升级、扩容都不是问题。贝瑞必须打造一个拥有自主知识产权的、强大的数据拆分系统,以便支撑未来海量的数据。

 

IT工程师们不负众望搭建了一个全新的架构。“以前8-12个小时完成的拆分,现在2个小时就可以做完,极速情况下可实现40分钟完成。这是全行业里贝瑞独有的技术。”张岩的双眼里透出IT宅特有的骄傲,仿佛彻底遗忘了开发过程中的一切紧张和压力。

 

张岩把基础架构的工作比作房子打地基:“基础环境规划好了,无论是检测100万人还是检测1亿人,都可以在底层框架之上进行横向扩展。今后贝瑞的测序机位将扩充到1000个,支持100万人以上的全基因组数据的存储和处理完全没有问题。”

 

是的,张岩描述的情景并不夸张。基因大数据正日益展露其巨大价值,成为基因行业下游数据应用市场的决定性因素。在临床上,可用于疾病筛查和诊断、用药指导,预后监测;在药物研发方面,大数据可以在药物研发之初就设定更加清晰的治疗目标,让精准治疗真正落地;在大众健康方面,可以给出精准的、个性化的健康指导。可以想象的是,在不久的将来,基因大数据将会贯穿人类生活的始终。

 

2015年,贝瑞基因开始建设百万人群的基因组数据库,这是其布局基因大数据的第一步。2017年,贝瑞基因在福州市滨海新区的国家级健康医疗大数据产业园里,率先打造数字生命产业园,通过基因测序技术将生命数字化,最终实现婚前、孕前、产前、新生儿、幼儿、少年、壮年到老年的全生命周期的健康管理。

 

生命数字化将成为人类发展的一个重要节点,张岩们成功跨界成为基因行业的IT大拿,一砖一瓦地推动着贝瑞实现其基因大计。

 

先利其器,再成其事。