介绍一个被称为十一边形战士的强大模型
文档智能(DI, Document Intelligence)主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括财务报销单、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等多模态文档的关键信息抽取、文档解析、文档比对等。随着企业数字化、信息化进程不断加速,这类需求越来越强烈,工业界急需前沿技术与易用工具来解决这些问题。百度开源的文心ERNIE-Layout以及自然语言处理开发工具PaddleNLP来得很及时,强烈安利!
文心ERNIE-Layout
重磅开源
近期,百度文档智能团队基于多语言跨模态布局增强的文档智能大模型文心ERNIE-Layout,刷新了五类11项文档智能任务效果。
继文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登顶DocVQA榜单,并成为榜单首个突破90分大关技术方案[1]。同时,基于文心ERNIE-Layout的开放文档抽取问答模型DocPrompt, 首次以文档智能模型登顶网页问答榜单WebSRC[2]。
文心ERNIE-Layout多语言跨模态布局增强文档智能大模型
前往GitHub获取详情:
欢迎STAR收藏,跟踪最新开源工作
DocPrompt开放文档抽取问答模型(基于ERNIE-Layout)
文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括各类多模态文档的关键信息抽取、文档解析、文档比对等。基于前沿的文档智能技术,PaddleNLP正持续开源一系列产业实践范例,解决开发者们实际应用难题。
前往GitHub获取详情:
from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence", model='docprompt')
docprompt({"doc": "./invoice.jpg", "prompts": ["发票金额", "左侧抬头日期是什么?"]})
针对网页、表格和试卷等复杂布局文档,DocPrompt也能结合上下文及表头信息,给出精准答案。
推荐大家访问Huggingface 文心ERNIE-Layout空间,快速体验DocPrompt带来的惊喜!
直播课预告
10月25日,文心ERNIE-Layout论文作者,百度高工将带来直播讲解,介绍文档智能的前沿技术,深度解读多语言跨模态布局增强文档智能大模型文心ERNIE-Layout与开放文档抽取问答模型DocPrompt,并带来基于PaddleNLP的实践范例。欢迎扫码入群,获取直播课程链接。入群还有更多福利:
与百度飞桨官方技术团队深度交流
官方团队整理的10GB NLP学习大礼包 TextMind智能文档分析平台合作咨询
▲ 文心ERNIE-mmLayout 技术框架
文档智能技术体系
与应用平台
文档智能(DI, Document Intelligence)主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程[6]。百度文档智能技术体系立足于强大的NLP与OCR技术积累,以多语言跨模态布局增强文档智能大模型文心ERNIE-Layout为核心底座,结合图神经网络技术,支撑文档布局分析、抽取问答、表格理解、语义表示多个核心模块,满足上层应用各类文档智能分析功能需求。
▲ 文档智能技术体系
开源地址
*本文封面图背景由文心ERNIE-ViLG大模型生成,欢迎点击参考链接[8],体验更多百度AI开放能力。
参考链接
[1]DocVQA榜单
[2]网页问答榜单WebSRC
[3]VIMER-StrucTexT
[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding
[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding
[7]百度AI开放平台——智能文档分析平台
[8]文心ERNIE-ViLG
微信扫码关注该文公众号作者