Redian新闻
>
UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型

UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型

公众号新闻

文档 AI(Document Artificial Intelligence)领域研究包括文档内容提取,分析和理解。近日,微软 Cognitive Services Research 和 UNC Chapel Hill 提出了文档 AI 的基石模型 “Universal Document Processing (UDOP)”。该模型统一了图像、文本和格式模态,并以生成模型的方式整合了各类文档理解和文档生成任务。

UDOP 利用文本内容和文档图像之间的空间相关性,提出用统一的表征方法来建模图像、文本和格式模态。UDOP 在大规模未标记文档语料库和多样化标记数据上进行预训练,学习生成文档图像的文本和布局模态。UDOP 在文档 AI 领域首次实现了高质量的文档图像生成和定制化的内容编辑。UDOP 在 8 个文档 AI 任务上刷新了记录,在 “DUE Benchmark” 上排名第一。

机器之心最新一期线上分享邀请到了微软 Azure 的高级研究员杨子弋及其学生唐子能,为大家分享他们近期工作 UDOP。

分享主题:UDOP:统一视觉、语言、格式、任务的通用文档处理模型

分享嘉宾:

唐子能,UNC Chapel Hill 数学专业大四本科生。师从 Mohit Bansal 教授。他曾在 2022 年于微软 Azure 实习,导师为杨子弋博士。他曾获得获得 2023 年度 CRA Outstanding Undergraduate Researcher Award。

杨子弋,微软 Azure Cognitive Services Research 高级研究员,博士毕业于斯坦福大学,师从 Eric Darve 教授。研究方向为多模态理解和生成,及自然语言处理。

分享摘要:UDOP 是文档人工智能领域的基石模型。我们将介绍 UDOP 的模型结构与大规模生成式预训练方法,以及 UDOP 如何统一文本,图像,格式模态和各类任务。UDOP 在各类文档理解任务上大幅度刷新了记录。我们也将展示 UDOP 作为第一个有文档图像生成与编辑能力的模型的视觉生成效果。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/udop

2)论文链接:

https://arxiv.org/abs/2212.02623

3)代码仓库:

https://github.com/microsoft/i-Code/tree/main/i-Code-Doc


加群看直播
直播间关注机器之心机动组视频号,北京时间 3 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「UDOP」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
佛州西南区的运河DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架MOAT项目原作解读:强大的可扩展视觉骨干网络SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型正式通知! 剪辑招募200人:统一培训视频剪辑技能,提升收λ!人人可学!ICLR 2023杰出论文奖得主分享:用于密集预测任务的通用小样本学习器统信软件将Linux“玲珑”包格式、官网等捐赠给开放原子开源基金会一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了正式通知! 剪辑招募200人:统一培训 视频剪辑技能,提升 收. λ!人人可学!Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型正式通知! 剪辑招募200人:统一培训 视频剪辑 技能,提升 收. λ!人人可学!新加坡管理大学何盛烽副教授招收计算机视觉、图像生成方向 CSC 公派/访问博士生2023加拿大20个拥有最佳Co-op项目的学校(上)ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器Java中如何解析、格式化、生成SQL语句?《知识》自古是被当作私有财产ELITE项目原作解读:基于扩散模型的快速定制化图像生成TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测正式通知! 剪辑招募 200人:统一 培训 视频剪辑技能,提升收. λ!人人可学!“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集2022南美南极行(15)巴西 萨尔瓦多自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法通用视觉GPT时刻来临?智源推出通用分割模型SegGPT机器人领位,奥兰多川味火锅SparK项目原作解读:卷积模型的首个BERT预训练国产 OFD 文档格式编制单位加入开放麒麟 openKylin 社区正式通知! 剪辑招募200人:统一培训视频剪辑技能,提升收入!人人可学正式通知!剪辑招募200人:统一培训视频剪辑技能,提升收λ!人人可学!SpringBoot 统一功能处理:用户登录权限校验-拦截器、异常处理、数据格式返回AudioLDM一作解读:文本生成高质量音频,单GPU即可教育局通知:统一教师着装!中小学教师群体沸腾了......JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题2023元月小惊喜Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。