建立百万级医学代码字典库,康鼎科技如何实现海量医疗数据标准化?
国内医疗大数据行业,正在从“概念红利期”逐步过渡至“价值兑现期”?
从外部政策环境来看,自2015年《国务院关于印发促进大数据发展行动纲要的通知》首次明确指出发展医疗健康服务大数据、建设医疗健康管理和服务大数据应用体系后至今,国家已相继出台多份文件推动医疗大数据行业发展,并逐步从“确定建设”细致到“如何建设”“如何监管”等细分层面。
政策的大力推动催生出大批企业、投资机构入局,也带来了一级市场投融资的火热。
据动脉橙2022年Q1全球健康医疗大数据价值趋势报告显示,2018年国内健康医疗大数据企业迎来融资井喷期,随后,随着国内医疗人工智能发展步入深水区,医疗健康大数据行业融资也渐渐趋于冷静,但在2020年、2021年逐步回升,到达顶峰。
而经过多年沉淀,一批耕耘在细分领域的企业也走到了D轮及以后轮次,逐步进入收获期。但从2016年-2021年融资数据来看,仍有55%的被投企业处于A轮及以前轮次,意味着在医疗大数据这一领域仍存大量初创公司,也意味着离行业整体迈入收获期还存在一定距离。
与此同时,医疗大数据行业仍然面临数据孤岛、数据标准化、隐私安全等问题,问题背后的解决方案成为了企业发展的关键密钥——谁能率先突破,谁便能突出重围。
你追我赶之间,有的企业选择投身于医院信息化基建建设,有的企业选择为医院搭建数据集成平台,也有的企业选择为医院、保险公司、药企等搭建数据桥梁,挖掘医疗数据的应用价值。
康鼎科技属于最后一类企业。不可否认的是,它的竞争对手很多,但历经7年的行业摸爬滚打之后,这家企业也找到了自己安身立命的所在。
一次与五十余家
中西医院医疗数据的偶然“相遇”
如果要为中国医疗行业写一本编年史,2015年一定“浓墨重彩”。
也许直到现在,还有药企和CRO公司记得2015年7月22日这天。在这天,CFDA投下重磅“炸弹”——《关于开展药物临床试验数据自查核查工作的公告(2015年第117号)》,强调用最严谨的标准、最严格的监管、最严厉的处罚以及最严肃的问责对已审批和等待审批的注册申请开展临床试验数据自查核查工作。
就当从业者都认为这是一份“形式”严格的新规时,强硬的执行力度很快让这一想法烟消云散,撤回品种也从第一个月的20%变成了一年内的89.4%。
行业阵痛的背后,反映出了国家解决临床项目数据造假、不规范、不完整的决心,为医药行业后续有序发展营造了良好的政策环境,也在整个行业数据规范意识觉醒的同时孕育出了一个巨大的蓝海市场。
正是在这样的背景之下,康鼎科技的创始人选择了入局,并于2016年参与到了“国家十三五新药重点研发计划”的项目之中,参与了全国50余家中、西三甲医院的医疗全数据深度挖掘。
据康鼎科技总经理薛韶波回忆,初次接触如此大体量的医疗数据,团队都十分兴奋。兴奋之后,庞大的工作量也让每一个人都感受到了这份工作的艰苦:在近三个月的时间里,团队成员几乎每天都吃睡在公司。
困难重重,最让人头疼的却是看似最“不起眼”却最关键的标准化工作,原因在于这项工作在当时只能经由人工进行操作。
“我们当时只有187个人,面对这么大体量的数据,只能人工在表格中逐个标准化,就是干到退休也干不完啊。”薛韶波感慨到。
也正是这段经历,让康鼎科技萌生出了将数据标准化工作自动化、智能化的想法。
一个兼顾中西医领域的
百万级医学代码字典库
医疗健康数据对科研、药物评价、患者管理等方面意义重大。这是行业不争的事实。
但无论是在何种领域的应用,都无法直接通过散乱无章的医疗数据进行转化。换言之,所有关于医疗健康数据的应用,都必须建立在标准化这一基础之上。
而标准化的第一步,便是统一名称与指标。以白细胞为例,其在临床检验项目中可被称为白细胞、WBC等。因此,数据标准化的第一步便是将各项目名称标准化,然后再进行指标的标准化(数据指标的单位不同、正常值范围不同,需要用科学的算法进行统一),最终形成的数据才具备数字资产的挖掘与应用价值。
但是,遗憾的是,行业目前并无现成“标准”可循。因此,经过多年努力,康鼎科技“自创”了一套兼顾中西医领域、包含ICD-10和WHO的医学代码字典库。
据薛韶波透露,这一字典库的形成并非是康鼎科技拍着脑门空想出来的,而是经历了100余场的专家论证会议的结果沉淀,具备社会公认性和市场应用性。
“从某种程度上来看,字典库等同于数据匹配的标准,只有拥有了标准,才能强势占领市场。”薛韶波表示。
但字典库只是一套参考体系,要想真正面向市场、占领市场,还需要一套与之相匹配的操作体系。
对此,康鼎科技也在前述字典库的基础上形成了一个数据标准化平台。具体操作流程为数据录入——数据清洗——标化人员批量标化部分不规范词汇——质控人员二次审核。
并且,康鼎科技数据标准化平台能够实现数据的自动化匹配,即数据与字典表之间相似度的匹配,这也是该平台实现数据标准化的基础。
具体而言,在标准化过程中,如词汇规范,与字典表的相似度为100%,则该词汇能够实现自动匹配;如词汇与字典包的相似度不够,则由标化人员或质控人员实施二次标化;如相似度为0且字典表中暂无匹配字段时审核人员可以进行重置。
而无论是数据的初次标准化还是标化人员与质控人员的二次标准化,该平台都能支持批量化操作。虽然从理论上而言,该系统一次性操作的数据量并无上限(数据处理量主要与服务器性能相关),但康鼎科技建议将单次批量标化数据条数设置为50条。
也正是在自动化、批量化的基础上,康鼎科技的数据标准化平台与传统人工操作相比,更高效,更具性价比。
“在字典库和标准化系统建立之前,数据标准化工作是在excel表中开展,一个工作人员8小时标化数据的效率小于等于500条,每条信息的标准化成本为8元,成本高且效率低。”薛韶波透露道,而在同等时间内,康鼎科技的数据标准化系统的工作效率可以达到150000条以上,为人工操作的300倍,且经审核人员查验,数据精准度为90%以上。
但是,无论是字典库还是数据标准化平台,都还只停留在技术层面,如何真正落地,为医疗健康行业带来真正的价值,实现真正的价值转化,是企业应当思考的另一个关键问题。康鼎科技又选择了怎样的路径?
构建一条以患者管理为中心的
全产业生态链
在去年年末,动脉网曾就医疗大数据赛道进行了年度盘点,梳理出了医疗大数据的五大盈利场景,以数据之力赋能药企、医院、保险机构的应用场景成为其中之一。这也是康鼎科技选择的商业路径。
动脉网了解到,截至目前,康鼎科技数字化研发平台参与的项目已经发表的文章超过300篇,医疗大数据项目合作已经超过50项,合伙伙伴包括互联网医院、国有制药企业以及IPO企业等。
康鼎科技能为行业各方提供怎样的赋能?
于医院而言,患者数据的互联互通不仅能够实现较好的患者管理、制定和及时调整治疗方案,还有助于落实分级诊疗、突破患者不同医院就诊存在的数据壁垒;于药企而言,标准化后的数据不仅可助力其药品研发,实现精准营销,还能实现药品不良反应监测,助力临床试验;有的放矢;而于社区药店而言,患者数据同样也能使其实现精准营销,并在了解患者痛点后新增相应服务,增加患者黏性;而于保险公司而言,患者数据带来的不仅是市场痛点,还有风控模型的雏形、核保核赔设计的关键要点。
而这一生态的构建,其实紧紧围绕着一个中心点——患者管理。如果引用薛韶波的原话,则是“只有真正将患者管理起来,药企、医院、保险公司等行业参与者才能真正了解患者需求,所谓的研发、精准营销才有实现的可能。而只有得到标准化的患者数据之后,才能使患者管理成为可能。”
康鼎科技在其中的角色,不是原始数据的采集者和提供方,而是严格按照国家相关法律法规输出标准化数据结果的“中间商”。
如果用一句话概括康鼎科技现在以及未来要做、想做的事,那便是“在合法合规的前提下,将患者往前追溯二十年、往后一直延续的医疗健康数据标准化处理和存储后,‘流通’至行业各方,提高业务质量,满足患者需求。”
为此,康鼎科技计划于今年在河南、天津、北京、江苏等地进行实体医疗+互联网医院试点、药店+经营企业的试点工作;而在未来2-3年,康鼎科技计划在全国各省份别培育一家科技公司为当地产业赋能。
想要联系动脉网报道的企业,请点击文末左下方“阅读原文”填写表单,我们的工作人员将征求企业意见后,尽快为您服务。
微信扫码关注该文公众号作者