测序企业常临算力困境?互联科技:打造基因测序的数字新基建
种瓜得瓜,种豆得豆,这是基因的力量。
基因测序技术的出现,让人类破译基因成为可能。如今,从科研到临床,从个性化慢病治疗、易感基因筛查,到肿瘤个性化诊疗、罕见病诊断、肿瘤转移复发风险评估、肿瘤晚期个性化用药,以及包括肿瘤、艾滋病等疾病的药物/疗法开发,均能见到基因测序的身影。
在具体操作中,基因测序可谓一项浩大的工程,其中需要涉及到DNA提取、DNA片段化、文库构建、DNA扩增、上机测序、数据分析等不同步骤,把细胞中“不可见”的DNA转化成可识别的ATGC碱基序列,再通过生物信息学等进行分析、解读。
完成非可视化生物信息向可视化文本信息转化后,需要依托计算、存储和网络等IT资源,利用基因测序算法对文本信息进行分析和研究,在生物科学与计算机科学的结合下,最终实现基因信息的转化。
基因测序需要计算机科学的力量
技术与成本壁垒极高
据BCC Research数据,2021年中国基因测序市场规模为15.90亿美元,2026年将达到42.35亿美元,复合年均增长率达21.6%,我国基因测序行业正在处于快速发展期。市场规模快速扩大的同时,基因测序大数据规模效应凸显,随之对IT基础设施的建设和运维带来新的挑战。
作为基因测序行业的入局者,互联科技(世纪互联 [VNET.US] 集团子品牌),以“基因测序解决方案服务商”切入市场,对于现阶段基因测序行业的痛点,该公司也有自己的察觉和洞见。互联科技云解决方案负责人邓世友表示,基因测序企业对于IT基础设施的需求比较复杂,这是基因测序行业的特点所决定。
第一,基因测序数据量大。公开数据显示,一个人的细胞大约有31亿个DNA碱基对,相当于3GB数据量。为了保障基因数据的完整性,测序时还需要平行测序30次,最终将产生30*3G≈100G的数据量。再经过分组、转换、拼接、注释等必要工作,数据量又将增加至600GB。也就是说,一个基因测序企业一个月的数据量就可达上百TB。随着基因技术在医疗、农业、食品等领域的普及,数据量还将呈现爆发式增长,而这些对于数据的存储、计算和传输都提出了很高的要求。
第二,基因测序成本高。常见的基因转换、拼接、对比、注释全流程,运行一次就需耗时30多个小时。并且,对于测序企业来说,自建HPC测序计算集群,资金开销也是非常高。更重要的是,测序业务本身存在淡旺季且业务量不可预测的特点,算力需求的波动、IT设施运维的成本、硬件设备的迭代、软件算法的扩容、数据信息的存放等产生的人力、财力、时间成本,这是企业和科研机构在实际检测工作开展过程中绕不开的难题。
第三,基因测序技术门槛高。基因测序流程复杂,从测序仪上拿到数据,再通过软件测序,需要经过映射、过滤、去重、排序、索引、比对等步骤,其中涉及到的环节多,与之匹配的软件也多。在软件的实际部署和测序中,怎样通过调优来匹配底层的算力基础设施,是一件技术门槛极高的事
弹性算力+全域一站式服务
最大化优化测序算力成本
有痛点也就有机会点,基因测序行业的需求正在被互联科技所看见。邓世友表示,互联科技基因测序解决方案的出发点就是解决基因测序企业IT基础设施建设和运维的后顾之忧,使其更加专注于基因组学研究本身。
一方面,互联科技依托于自身的底盘资源优势,在遍布全国的数据中心里建立了弹性算力资源池,可以就近为测序企业提供弹性算力服务。同时,互联科技也联合商汤、阿里云等合作伙伴,提供合作算力补充。
另一方面,面对基因测序企业的海量数据传输,互联科技提供数据同步服务。通过数据中心与基因测序企业生产中心、数据中心与公有云之间的网络连接,实现了数据传输的低时延性和高可靠性。
从互联科技本身来看,除了遍布全国的数据中心和强大的互联互通能力之外,还能够与各大云服务商合作提供全域一站式服务。
基因测序是一个典型的多域多业务场景,通常情况下,用户基于安全性考虑,将一部分业务放在自己的机房中,同时还有一部分业务放在公共和弹性的环境中,对外提供公共服务。互联科技全域托管云服务涵盖用户的自有域、托管域、弹性域和公共域,并提供相应的服务。
面向用户的自有域,互联科技可以提供运维和监测服务;在托管域中,用户可以把服务器托管到互联科技的数据中心里;在弹性域中,互联科技通过自己的内部算力资源池进行弹性补充;在公共域中,互联科技与国内主流云厂商合作面向用户提供云服务。
邓世友进一步表示,互联科技基因测序解决方案的突出价值在于可以有效解决基因测序企业硬件投入成本高、业务淡季基础设施利用率低、测序分析耗时长等问题,最终实现降本增效。
超互联新算力
探索测序算力新可能
基因检测行业正处于快速发展期,算力是决定其能走多远的关键性因素。在互联科技的另一个重点方向——“超互联新算力”,为突破基因测序的算力瓶颈而探索新的可能。
“超互联”立足城市范围,以“城市就是一台计算机”为理念,通过新市政基础设施建设,致力于提供无处不在的连接能力。“新算力”则通过建立一套经济激励机制,将现有行业、机构、区域乃至互联网上闲置算力资源以松散方式整合起来,形成强大的算力供给。该项目任务类型不仅可以实现类似云计算的时长型算力供给,同时也提供任务级细颗粒度的使用模式,真正实现泛在算力服务。
基因测序属于典型的计算密集型任务。可以预见的是,这个面向大模型时代,通过人人参与、人人建设、人人经营、人人拥有的方式构建和运行的分布式算力网络,以普惠全民为目标,将为基因测序行业带来无限可能。
从更大的视野来看,无论是全域托管服务还是超互联新算力,都只是在基因测序行业的一个应用缩影。互联科技正在赋能实体经济的各行各业,诚如其使命“成为企业数字化转型全生命周期的合作人”一样。
微信扫码关注该文公众号作者