国际科技财经博客移民网络热点娱乐民生时事公众号

>

一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V

一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V

公众号新闻

2024-03-22 05:03

新智元报道

编辑：编辑部

【新智元导读】国产大模型独角兽送福利来了，千万token免费用！最近，零一万物API正式开放，三款模型都非常能打，开发者们赶快来开箱吧。

零一万物API开放平台，正式向开发者开放了！

零一万物Yi大模型API开放平台推出后，更多开发者可以直接调用，围绕着Yi大模型，会发展出更加繁荣的生态，促成模型在更多应用场景的落地。

平台地址：https://platform.lingyiwanwu.com/playground

而在此前，Yi系列模型凭借着国际SOTA的性能、训练成本友好和更懂中文等优势在全世界AI社区中名声大震，开源的Yi系列模型，已经是开源社区一股不可小觑的中国力量。

开源模型、开放API、打造To C超级应用，零一万物正在一步步践行着CEO李开复博士的大模型商业化方法论。

此次API开放平台，提供了以下三个模型——

Yi-34B-Chat-0205：支持通用聊天、问答、对话、写作、翻译等功能。
Yi-34B-Chat-200K：200K 上下文，多文档阅读理解、超长知识库构建小能手。
Yi-VL-Plus: 多模态模型，支持文本、视觉多模态输入，中文图表体验超过 GPT-4V。

目前，Yi大模型API名额已经开放，新用户申请成功即送60元体验。折算下来也有百万甚至千万token了。

去年底，零一万物就正式开源了Yi-34B大模型，具备了处理200K上下窗口的能力。

这一次，性能更强的多模态模型，更专业的推理模型，和OpenAI API随意切换的兼容性，以及超低的价格，都让用户们惊喜无限。

多模态单挑OpenAI：中文图表体验出众，GPT-4V幻觉严重

这一次，针对实际应用场景，多模态模型Yi-VL-Plus能力得到了显著增强。

比如Charts, Table, Inforgraphics, Screenshot识别能力，还可以支持复杂图表理解、信息提取、问答以及推理。

举个栗子，找一张有些重影的图片，让模型去识别「这是什么店」。

Yi-VL-Plus准确给出了店名，并解释了这个店铺是做什么的。

而GPT-4直接识别成了「风水宝地鉴定中心」……

值得一提是，中文图表的体验，Yi-VL-Plus通常也优于GPT-4V。

新升级模型在Yi-VL基础上进一步提升图片分辨率，支持1024*1024，明显提升了场景中文字、数字OCR识别准确性。

下面这张图表中，表格内容繁杂，而且分辨率很低。

若想准确识别图中信息，对于模型来说，确实是一个不小的挑战。

不过，当询问「暖通工程的人工单价是多少」，Yi-VL-Plus一眼就看出了33.054元/工日。

GPT-4V表示由于图像清晰度和视角问题，无法看出具体细节。

当然，Yi-VL-Plus的多模态能力，不仅仅局限于识别，还可以将图片中的内容，转换成你想要的格式。

要求模型将中文图表转成markdown格式。

Yi-VL-Plus从表头到每列每行的文字，标点符号，甚至是英文期刊中一个空行，全部准确准换。

而GPT-4V又开始了自己的胡言乱语......

除了表格，Yi-VL-Plus还可以用中文来详细分析不同类型电池市场份额的饼状图。

而GPT-4V再次暴露了自己最大的缺点：无法正确认出饼状图中的中文字。

比起GPT-4V，Yi-VL-Plus对于折线图的分析更全面，数值也更精准。

下面这张图，比较了GPT-4和New Bing在谷歌搜索量上的变化。

Yi-VL-Plus十分精准地识别出：从2022年12月8日起，ChatGPT的百分比就开始随着时间推稳步增长，到2023年4月13日达到了7.2%的峰值。

而代表Bing搜索的线，在同一天是百分比为3.5%，随后一直保持温和缓慢的增长，在2023年4月13日结束时，大约停在3.8%。

而GPT-4V读图的过程中就出现了重大错误，比如把ChatGPT 2022年11月所占的百分比识别为了1%。但实际上图表中的时间是从2022年12月开始的。

而把Bing这段时间的百分比识别为了3%到5%，数字也不够精确。

200K超长多模态上下文

此次Yi-34B-Chat-200K的开放，让大模型应用彻底进入了长文本时代！

无论是多篇文档内容的理解，海量数据的分析和挖掘，还是跨领域的知识融合，它都可以游刃有余地掌握。

在业界知名的「大海捞针」测试中，Yi-34B-Chat-200K的准确率可以达到99.8%之多。

文能处理数十万字小说

文学爱好者们有福了，几十万字的小说，通过Yi-34B-Chat-200K就能马上掌握作品精髓。

比如王尔德的经典名著《The Picture of Dorian Gray》（道林·格雷的画像），中文版长达20多万字。

我们把296页的英文原著PDF扔进去，Yi-34B-Chat-200K立刻就给出了中文内容总结。

盘根错节的人物关系太过复杂？没关系，模型可以在通读几十万字后，帮你条分缕析地找出人物线索。

不懂就问，以后玩「剧本杀」，是不是就可以带着Yi-34B-Chat-200K来帮忙读剧本了？

理能读懂前沿技术报告

如此高端的上下文能力，当然还可以用在一些更正经的地方。

比如，科研人员可以用它高效提取论文要点。

举个例子，把Yi模型的26页报告输入进去，Yi-34B-Chat-200K就能立刻总结出模型有哪些亮点和优势。

并且，还能从如此长篇的报告中，总结概括出模型微调的8条关键经验：

轻松上手实践

知乎知名答主「苏洋」，直接用Yi-34B-Chat-200K和LLM应用开发平台Dify快速搭建了一个模型应用。

前HuggingFace员工、前transformers核心贡献者Stas Bekman曾写了一本机器学习的书。

而苏洋直接使用Yi-34B-Chat-200K，就让模型迅速地吐出结果了。

每篇内容大概只需要花费十几秒的时间，模型就能自动翻译出来了！

图源：https://zhuanlan.zhihu.com/p/686774859?utm_psn=1751239717650427904&s_r=0

深圳超思维智能技术负责人近期也在测试大模型的知识库挂载操作，期望成为公司多模态开发中的一部分功能。

此次他利用Yi-34B-Chat-200K进行了知识库挂载的操作，对非常复杂的表格数据和专业性极强的学术文档进行了长文本总结和关键信息提取！

在这个过程中，模型的长文本输入、输出和总结以及关键信息提取的能力，都体现得淋漓尽致。

具体来说，它可以对中英文混合的表格形文档进行信息筛选、内容总结。

它能对中英文混合内容进行准确分辨，还能处理表格形式的数据。

比如总结出学术期刊列表中的A+级期刊和B级及以上期刊。

专业性非常强的学术文档，它也能提取出内容，比如Debian和Ubuntu系统使用说明下的主要内容。

而且，即使是文档内部小标题的详细内容，还是PDF图片中的文字内容，它都能有效地筛选和总结出来。

而Yi交流群中的AI大模型发烧友「闻」，尝试了200K API后，有了一些非常惊喜的发现。

「闻」一直在尝试能否用AI模型来翻译关于古典音乐的英文。

要知道，翻译古典音乐科普是一个巨大的挑战，尤其是当原文不只是英语的情况下。要翻译这种材料需要的不仅是英文好，也需要比较强的音乐专业背景。

他尝试过市面上所有的大模型和API，而Yi-34B-Chat 200K的长文本表现，让他直呼惊艳！

仔细看翻译，Yi-34B-Chat-200K这种程度的准确度，对古典音乐知识的掌握已经到达了很专业的水准。

API使用指南

经过一波demo对零一万物开放模型的了解，许多人早已等不及上手一试。

Yi大模型到底该如何使用？

正如开头所言，目前已经全面开放API名额。

现在，直戳零一万物API开放平台链接：https://platform.lingyiwanwu.com/

另外，Yi Model API与OpenAI API是完全兼容的。

也就是说，你只需修改少量代码，即可实现平滑迁移。

API开放之后，零一万物还将为开发者社区带来更多的惊喜，主要亮点包括：

1. 发布一系列模型API，包括更大参数量、更强多模态、更专业数学推理代码模型。

2. 突破更长上下文，从当前20万token扩展到100万token。支持更快的推理速度，显著降低推理成本。

3. 基于模型拥有的长上下文能力，构建向量数据库、RAG、Agent架构在内的全新开发者AI框架。

零一万物首批开放3款大模型API之后，开发AI 2.0的应用生态，就等你来创造。

参考资料：

https://platform.lingyiwanwu.com/playground

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

国产端侧小模型超越 GPT-4V，「多模态」能力飞升【七律】大學歸鄉憶倦侣2：商学院/美术学院/宋庄婚介所；头难剃，男多女少；去父留子；去母留子对话古生物学家：《沙丘》的沙虫有没有地球版 8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare 实测零一万物“AI特助”：手机2分钟生成PPT，秒读数十万字文档，但财报解读不太准速读60万字《马斯克传》、手机一键生成PPT，零一万物上线AI生产力工具「万知」AI早知道｜ChatGPT模型大更新；阿里云发布多模态大模型；百度推多模态模型UNIMO-G 零一万物发布Yi-VL多模态语言模型并开源，测评仅次于GPT-4V 国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro！稳坐端侧多模态铁王座《神偷奶爸4》发布首支预告；《沙丘》内地重映 Claude 3全面超越GPT-4？我们上手实测了一波。一口气读完《资本论》：解密资本主义运行规律，深刻洞察社会现象《又到佳节》&《心若莲花》《沙丘2》票房超越前作，衍生剧明年上线比《魔戒》口碑还炸裂！好评率高达97%，专属定制《沙丘》（电影纪念版）终于来了！零一万物发布千亿参数模型 Yi-Large，李开复：中国大模型赶上美国，立志比肩 GPT-5 超越 GPT-4V 和 Gemini Pro！HyperGAI 发布最新多模态大模型 HPT，已开源 AI早知道｜Figure发布第一个OpenAI大模型加持的机器人demo；零一万物全面开放笛卡尔向量数据库搜索内核面壁发布多模态小钢炮仅仅 8B 参数规模，超越 GPT-4V 和 Gemini Pro 《沙丘》的BDO美学：让人着迷又战栗的巨大沉默物随笔 GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评维伦纽瓦：把《沙丘》系列搬上银幕是我年少时期的梦想世界顶尖多模态大模型开源！又是零一万物，又是李开复多领域文献阅读超越GPT-4！深势科技发布科学文献多模态大模型Uni-SMART技术报告 OpenAI劲敌出手！Claude 3正式发布，超越GPT-4，一口气读15万单词爆打多模态王者 GPT-4V、Gemini Pro！这个小小端侧模型杀疯了！一口气读完甄嬛传剧本、大部头医书：月之暗面200万字上下文Kimi开启内测北京获准的大模型占全国近半；OpenAI CEO筹建AI芯片公司；零一万物多模态语言模型上线丨AIGC大事日报零一万物 API 上线，用户反馈多模态中文图表体验超过 GPT-4V GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4 马斯克、贝佐斯、比尔盖茨强推！敢不敢2024一口气读完这9本书从《沙丘》到《三体》，科幻影视IP为何频繁破圈？

热点事件追踪