Redian新闻
>
产业级文心大模型ERNIE-UIE在金融科技上的应用:上市公司风险识别

产业级文心大模型ERNIE-UIE在金融科技上的应用:上市公司风险识别

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。

(图:金融领域公告示例)

目前该业务是由专人人工解读上市公司公告,撰写每日风险总结报告,然而这项工作不仅工作量繁重,且准确率与覆盖率不足,难以满足日益增长的数据量以及快节奏的需求变动

  • 资料版面布局多样:公告文本的版面格式涵盖了段落、目录树、表格、图像等多种样式。

  • 公告内容差异大:不同种类公告内容差异大,不同行业披露信息差异大,不同公司撰文风格差异大。

  • 标注样本稀少:因标注标准复杂、专业性强导致的标注成本高,不同类别公告数量差异大,因监管和公司运营情况调整导致的标注时效性难以保证。

金仕达软件科技有限公司利用自然语言处理技术中的信息抽取技术ERNIE-UIE,打造了上市公司公告信息抽取系统,从上市公司常见的公告文本数据中,提取引起证券价格较大变化的重要事件及关键信息,实现自动提取影响证券价格较大变化的重要事件,为金融业务的开展提供风险管控的依据,并将此过程中积累的技术与经验推广到证券交易业务、风险管理业务以及客户服务等应用场景。在PaddleOCR和PaddleNLP的前沿模型的加持下,金融文件文字提取和信息抽取的效果显著:文档页面导航准确率100% ,信息抽取准确率达到95%,单篇抽取可在1秒内完成。上市公司公告信息抽取系统节约了80%的人工解读时间极大提升了融资融券、反洗钱、操作风险管理业务的效率。 

3月23日晚7:00,金仕达AI实验室负责人、高级研究员孙科老师将作客飞桨直播间,分享上市公司公告信息抽取产业落地经验。

更有孙科老师多年金融AI从业经验分享!名额有限,感兴趣的朋友可扫码预约课程。

解决思路

  • 本项目中使用了提示学习来解决小样本问题,在项目中引入PaddleNLP中的ERNIE-UIE,通过大规模多任务预训练学习的通用抽取能力,配合基于Prompt的信息抽取多任务统一建模方式,可以实现标注少量数据进行微调,即可完成在公告文本信息抽取任务中的任务适配,大大降低标注门槛和成本。

  • PaddleNLP中的ERNIE-UIE是一个大一统诸多任务的开放域信息抽取技术方案:通过构建结构化模式提示器(SSI,Structural Schema Instructor),ERNIE-UIE能够对不同的信息抽取目标进行统一编码,从而实现多任务的统一建模。

  • ERNIE-UIE开创了基于Prompt的信息抽取多任务统一建模方式,通过大规模多任务预训练学习的通用抽取能力,可以实现不限定行业领域和抽取目标,零样本快速冷启动。简单场景,无需训练数据,即可全部抽取正确。针对复杂抽取需求,标注少量数据微调即完成任务适配,大大降低标注门槛和成本。

  • 除实体抽取任务外,在金融、医疗、互联网三大自建测试集的关系、事件抽取任务上进行实验,标注少样本也可带来显著的效果提升,即使模型在某些场景下表现欠佳,人工标几个样本,交给模型后就会有大幅的效果提升。

(图:上市公司公告信息抽取系统架构图)

  • ERNIE-UIE对于数据量更大的类别有更好的预测结果,即使对于少样本,诸如APER、EPER和TPER等类别,模型仍具有一定程度的预测能力,体现了ERNIE-UIE在小样本学习上的优势。

(图:ERNIE-UIE进行实体抽取的效果)

  • 模型训练完成后,转为推理模型,之后,利用飞桨服务化部署框架Paddle Serving方便集成的特性,将公告信息抽取服务快速部署为线上服务。用户通过WEB端访问业务框架后台时,即可直接调用智能文档解析服务展示结果。

相关项目

  • PaddleNLP GitHub地址:https://github.com/PaddlePaddle/PaddleNLP

  • PaddleNLP Gitee地址:https://gitee.com/paddlepaddle/PaddleNLP

微信扫描二维码,加入PaddleNLP官方社群,获取直播提醒、社区开放交流、学习大礼包等超多福利!

技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。

文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。

从技术研发到落地应用,大模型的发展已经进入产业落地的关键期,欢迎前往文心大模型官网了解详情:https://wenxin.baidu.com/

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人体器官移植的真实故事两会专访|全国政协委员、恒银金融科技股份有限公司董事长江浩然:尽快提升国产工业软件的研发应用能力冒打官司风险 加州大学考虑雇佣无证移民学生飞桨 - 鹏城云脑发行版发布:深度适配文心大模型,提升“AI+ 科研”应用体验 | InfoQ 快讯亚马逊云科技把Serverless的应用门槛降下来了晒收入何错之有!凭什么被停职?华纬科技上市:市值36亿 二代金雷接班后带领公司IPO留学生社招 | 恒生2023春招开启!金融科技上市公司,综合实力强火速报名!第二届湾区金融科技高校分论坛本周六开幕!金融科技产学研助力新时代 | Q推荐中国上市公司协会:中国高端制造业上市公司白皮书偏爱留学生 | 恒生2023春招开启!金融科技上市公司,综合实力强北京金融科技产业联盟:2023智能流程自动化金融应用落地研究报告第二届湾区金融科技高校分论坛圆满落幕:产学研共同助力金融科技产业走进新时代!| Q推荐A股绿色周报|22家上市公司暴露环境风险 这家上市公司联营企业被开百万元环保罚单4 道做法简单颜值爆棚的年菜A股绿色周报丨9家上市公司暴露环境风险 两家上市公司被开环保罚单年关将至金融科技公司Hyphen,借壳李泽楷旗下SPAC在美国纳斯达克上市,或近尾声、最快月内宣布细节喜报:上市公司运营总监,12天极速获批美国EB-1A申请 | 公司专栏今年最贵股票日联科技上市;先正达上会取消;京东集团拟分拆京东工业在港独立上市;珍酒李渡通过港交所上市聆讯|IPO留言板阿里设立六大业务集团;百度推出企业级大模型服务平台“文心千帆”;家乐福中国内地首店关闭……专栏 | 另类数据在经济金融方面的应用:以夜光数据为例喜报:上市公司运营总监,12天极速获批美国EB-1A申请!| 公司专栏A股绿色周报丨12家上市公司暴露环境风险 多家煤炭行业上市公司旗下企业被罚留学生友好 | 恒生2023春招开启!金融科技上市公司,综合实力强ChatGPT在金融行业的应用潜力和风险直播预告 | 反贿赂合规的体系搭建、风险识别及争议应对【附资料包】度小满CEO朱光:发展大模型技术 提升金融科技全球竞争力清华五道口:ChatGPT在金融领域的应用和前景A股绿色周报丨13家上市公司暴露环境风险 多家环保产业公司收环保罚单钉钉发布首个基于千问大模型应用:斜杠“/”;苹果储蓄账户上线,年利率4.15%……《农历新年》新《農曆新年》旧NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)混在金融圈,如何识别渣男?太“huì”了!这份美好生活攻略,打包收好
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。