Redian新闻
>
“宝藏AI神器”通义听悟上新:超长音视频随便问,高校师生可获500小时免费时长

“宝藏AI神器”通义听悟上新:超长音视频随便问,高校师生可获500小时免费时长

科学
西风 发自 凹非寺
量子位 | 公众号 QbitAI

家人们,大模型加持的AI神器,真的救了大命了——

就在几天前,我被老板要求整理AI大神何恺明MIT第一课的内容,ddl非常紧张。然而全英文各种专有名词听的我一头雾水。

好巧不巧,有朋友给我推荐了阿里通义听悟,他们刚上新AI音视频问答助手“小悟”,据说在业界首次支持了单记录、跨记录、多语言超长音视频自由提问

咱也不知道这宣传的效果是否「保真」,但我只能死马当作活马医。

我悄默声地打开了通义听悟上传了时长1小时15分钟的视频文件。

芜湖!没想到还挺好用,分分钟一键提取出了关键词、全文概要以及自动划分好章节,还有要点回顾,连PPT都被一一提取出来了,可导出全部为pdf:

接下来,“小悟”的表现更让我眼前一亮。

它不仅能够根据音视频记录对我提出的问题给出答案,还会在最后标出引用出处以及对应时间戳,点击时间戳就能自动跳转到原视频对应位置,也方便了返回原文求证,效率up up up:

既然如此,我还有一个大胆的想法,以后再被随机抽查提问上次开会or上节课讲了啥,岂不是……

据了解,除了“小悟”,通义听悟现在还上新了更多新功能,对于经常要处理一大堆录音、发布会视频的量子位来说,自然是不能错过新的实(mo)(yu)(shen)(qi)

这就赶紧来测试一波~

PS:剧透一下,中国大陆高校师生均可薅羊毛,免费获得500小时使用时长。

新·通义听悟初体验

总的来看,通义听悟此次共上新了六大功能,下面我们就来逐一测试。

首先是开头提到的AI智能助手“小悟”,主打能对所有音视频内容进行全面“解剖”,播客、会议、学习、访谈各种视频均可对其多语言自由提问。

不仅可以针对单一记录向它提问,最长6小时、6G大小,还可以跨记录、让“小悟”扫描上百个音视频一起总结回答问题,目前“小悟”支持内容问答的音视频时长和文件数都是业界上限。

最基础也是最重要的,“小悟”回答的准确性、可靠性如何?

我们选择了一个大家都能看懂的时长在10分钟左右的中文视频来试试水。

视频内容与圆周率有关,从上传到转写完成用时不到1分钟

直接询问“小悟”计算圆周率的方法有哪些。好家伙,没想到的是它不仅指出了视频中讲的几何近似和无穷级数法,还额外补充了一些方法。

我们点击时间戳定位到到原文对比,“小悟”对两种方法的表述无误,而且做了很好的精简和整合:


我们随即还提问了其他问题,“小悟”都能应对自如:

除了回答问题,让它帮忙整理大纲也很条理:

我们再用马斯克星舰第三次发射的视频来体验通义听悟处理更长音视频的表现。

视频全长1小时43分,上传到通义听悟转写,仅用了大概4分钟

去年6月通义听悟刚刚发布时,我们也做了一波测试,当时时长10分钟左右的视频上传转写大概需要2分钟,1小时左右的视频大概用时5分钟。

不得不说,速度方面通义听悟这次也提升了不少。

针对“小悟”的提问这次再上难度,不仅直接在文件夹中跨记录提问,而且使用英文提问。

问题是马斯克星舰第三次测试的目的是什么?“小悟”这次的表现是酱婶儿的:

整个回答围绕着“收集对未来任务至关重要的数据”展开(好回答,肯定是没错的),并且点击时间戳成功定位到了正确视频。

除了“小悟”,通义听悟还上新了几大功能。

首先是一键AI改写功能,可以将音视频的口语化表达内容快速转换为更具逻辑性、规范性和可读性书面表达,同时保持原意。

这就非常适合用来整理会议记录、采访。

我们简单测试了一下,通过对比,可以清楚地看到“不妨来听听他们怎么说”等较口语化的内容都做了删减优化,语句表述书面化效果很明显:

还上新了思维导图生成功能,可谓有逻辑爱整理同学的福音。

最多支持五层脑图展示,能够将脑图导出为多种格式,如xmind、图片等,方便与他人分享和保存。

此外,升级后的通义听悟能自动识别音视频文件语种,无需手动选择。

目前支持的语种包括中、英、日、粤,据说即将支持韩语。

笔记整理方面也有实用设计,推出一键插入视频时间戳及截图功能,笔记整理效率再提升一大截。


还没完,升级后的通义听悟还支持上传更多格式的文件,单文件转写上限增至6小时,一次最多可上传50个文件。

视频更是支持最大6G文件的转写:

每个功能都可以用四个字总结:非 常 实 用

此外值得一提的是,在通义听悟界面的发现栏目中有诸多播客节目,点开后即可速览主要内容。

好家伙,以后听播客都可以先看主要内容筛选自己的喜欢的,然后再精听了。

只能说,升级后的通义听悟还有更多实用功能可挖掘,比如开组会随时听悟、备考同学还可以使用它两倍速学习网课资料……

“宝藏AI工具”

众所周知,过去一年大模型经历了一场狂飙,各种大模型层出不穷,令人眼花缭乱。

然鹅,对大多数人而言,大模型技术本身可能并没有那么重要,产品好不好用、能不能切实地帮到自己才是最重要的。

基于此,各种大模型应用也已经花式开卷,阿里也基于通义千问推出了一系列产品。

其中,通义听悟是自去年6月推出后,备受用户欢迎的产品之一,现已有上百万用户。

通义听悟接入通义千问大模型,能听、能看、能读,还能实现速览+精听,在学生、老师、白领、记者、律师、金融分析师…各类群体中都有忠实用户,被认为是用来学习和工作的一种新型方式。

举个例子——

一位电子工业出版社编辑,借助通义听悟整理了播客“三五环”的对谈精华内容,还用AI技术再加上人工编辑的方式完成了《大厂之外》一书的整理、编辑,而这本书也即将出版。

还有一位成都管理学在读博士生蔡同学,她在社交媒体上写道“通义听悟绝对是最强科研神器”,她会用通义听悟来分析网络视频进行学术研究,在日常学习工作中也会随时使用。

目前,她的使用时长已近7000小时,平均每天转写20小时以上。

所以问题是,为什么在AI大模型产品竞争如此激烈的情况下,阿里总能造出实用工具收获大批忠实粉丝呢?

原因大概就藏在产品的诸多细节中吧,比如我们上面未提到过但反复出现的一键“回到顶部”和“回到当前播放位置”按钮,面对超长视频,用户也无需一直滚动鼠标翻看转写内容:

此外,通义听悟还设置了多级文件夹管理,用户上传的文件也可以归类整理;上传阿里云盘中的音视频进行转写,不占用通义听悟存储空间;支持将单个记录的原文、译文、笔记、PPT一次性导出;支持自定义专有词汇,用户再也不怕专有名词翻译不准确了……

而这些细节处理,都是积极根据用户的需求做出的改进

好好好,很是“宠粉”,且“宠粉”不止于此,通义听悟的福利大放送就没停过。

对比目前市面语音厂商9.9元每小时的音视频转录折扣价,大伙使用通义听悟几乎免费,每人每天只要登陆即可自动获得转写时长,阿里云官方微博、微信及各大平台社区还会发放大量20小时转写口令码,并且时长均可叠加,一年内有效。

咱就是说,短短几天,咱已经攒出了这么多“羊毛”,攒100小时简直洒洒水:

而且,伴随着这次通义听悟大升级,官方又发起了一波福利大放送!

推出“高校公益计划”,所有中国大陆高校师生通过后缀edu.cn的教育邮箱进行认证后,均可直接获赠500小时转写时长!

掐指一算,这没有不冲的理由吧。

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿B站超3000部纪录片限时免费,我推荐这十部好消息!多伦多TTC跨区"一票通"这天生效!3小时免费换乘!心态崩了!夫妇乘航班飞行10小时,全程“坐尿液中”!还有人机上死亡,尸体留原地飞几小时,邻座崩溃……三层世界:老年痴呆症最有用的预防,而且最简单异国他乡白喜事“宝藏级”写作书,让娃告别写作老大难国人平均睡眠时长6.75小时,00后成熬夜主力军……2023爱思唯尔“中国高被引学者”榜单发布; 北大物理系发现玻色子新“宝藏” | 学界速递七绝 合肥教弩台心态崩了!夫妇乘澳航航班飞行10小时,全程“坐在尿液中”!还有人机上死亡,尸体留原地飞几小时,邻座崩溃……太好了!维州人足不出户,就可7天24小时免费看急诊全球首条纳米银线黄光触屏量产线达产,「纳美达」获5000万元A+轮融资|36氪首发澳洲看房神器3.0重磅升级!各种神级功能颠覆传统!最懂140万华人的找房顾问,买房痛点一站式为你解决半折抢!全网爆卖300w支的止痒“神器”,0岁、孕妈可用!爆火的天水,真正的“宝藏”原来在这里?【限时免费】破解CFA题目理解难题:速领2000词金融专业词汇大全PDF我们把建商、装修队拉来现场!有什么问题随便问[免费] 侃哥价值499的《美语宝典》课程限时免费送!UCI 遭黑客攻击!3000名师生被迫观看血腥视频!造成严重心理创伤小米汽车27分钟大定超50000台,雷军称发布会前一天降价3万/通义千问将接入多款Android手机/百度沈抖回应与苹果合作【万水千山,一起走遍】Jan Jose, Costa RicaHooli波士顿第三届房东大会!我们把建商、装修队拉来现场,有什么问题随便问!好消息!多伦多TTC跨区“一票通”本月底生效!3小时免费换乘!河北一粮库近万吨粮食“凭空消失”!“什么时候缺钱就拉出去卖一点”,粮库“内鬼”获5万元好处费,粮商获利超2500万元Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩美国车祸律师生意经:小事故,高赔偿英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200【仙潭诗人补习课】51Sim获5000万元A轮融资,聚焦自动驾驶仿真与合成数据|36氪首发BOSCH博世社招岗位上新!15薪,500强德企,超长带薪假,内附专属求职资料,适合留学生恭喜蔓藤学员!收获500强企业Continental全职offerOpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报定了!大多伦多“一票通”计划这天开始生效!最多3小时免费换乘,每年省$1600!全国最忙高速路,停止收费!通车30年后,全线进入免费时代
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。