Redian新闻
>
小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon

小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon

公众号新闻

随着大模型的广泛应用,多模态技术被认为是未来发展的方向。然而,尽管前景广阔,但其面临着诸多挑战和困难,如数据融合、模型融合、跨模态信息融合等方面的技术难题。在 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,我们特别策划了多模态技术与应用专题,由小米 AI 实验室机器学习团队技术主管孟二利担任专题出品人,精心评选了以下四位专家来分享他们的见解:

声音基础模型如何推动声音理解和生成

首先,我们非常荣幸地邀请到王育军,他是小米的语音技术负责人,也是技术委员会 AI 实验室声学语音方向的负责人。在学术界和工业界从事声学语音方向已有 20 年之久,拥有丰富的经验。他的研究兴趣包括声音的感知、理解、生成与展现。他领导的声学语音团队于 2017 年成立,涵盖了语音理解、生成与测量三个领域,团队下设 17 个子方向,包括语音识别、声音分析还原、语音合成等。他们为小米的手机 AIoT 平台提供语音服务,日均提供服务 12.6 亿次,并先后获得 7 项国内外声学语音挑战赛冠军。

王育军将在演讲中重点介绍小米声音基础模型的演进,以及声音基础模型如何从编解码两侧精准助力声音的理解与生成。通过他的分享,听众将了解到声音基础模型在推动声音理解和生成方面的重要作用,以及当前面临的挑战和未来的展望。

迈向实用化多模态大模型

其次,我们也荣幸地邀请到姚远,他是面壁智能的研究员,也是清华大学计算机系的博士后。他在多模态大模型、信息抽取和知识图谱等领域有着丰富的研究经验。他将分享关于迈向实用化多模态大模型的演讲,重点介绍了团队在这一领域的最新工作和成果。

在演讲中,他首先将分析了多模态大模型在实用化过程中所面临的挑战,包括参数规模、计算成本、图像感知分辨率、语言能力等方面的限制。随后,他会分享了团队近期的前沿探索,涵盖了端侧基座大模型构建、高清图多模态大模型、多模态能力跨语言泛化以及多模态人类反馈强化学习等方面。

其中,他会重点介绍了团队构建的高效端侧多模态大模型系 MiniCPM-V 2.0。这一系列模型总参数量为 2.8B,具备多项突出特点:性能领先,在常用评测基准上综合得分优于主流模型;OCR 能力突出,支持高清图像编码,并在双语支持和可信行为方面取得显著成绩。MiniCPM-V 2.0 在国际开源平台 HuggingFace 上表现优异,获得了广泛的关注和认可。

通过他的分享,听众将能够深入了解当前多模态大模型在实用化过程中所面临的挑战,并掌握针对这些挑战的优化策略和技术方法,从而更好地应用于实际场景中。

多模态大模型在金融行业的实践和展望

我们也荣幸邀请了周思霁,她是火山引擎的金融解决方案总监兼金融大模型负责人。她致力于推动人工智能在金融行业的落地应用,在自然语言处理、机器学习和计算机视觉等领域有着深入的研究和行业经验。她将分享关于多模态大模型在金融行业的实践和展望 的演讲,深入探讨了这一领域的关键问题和前景。

在演讲中,周老师将指出大模型从单模态向多模态的转变将为各行各业带来新的生产力工具,可能引发商业模式的革命性变革。特别是在金融行业,利用多模态方法综合处理文本、数字、表格和视觉数据,可以全面理解金融专业文件,从而提升技术在金融领域的应用效果。

此外,她还将深入分析了多模态大模型技术在金融领域的发展趋势和应用场景。她也将探讨海内外多模态大模型发展的趋势,深度解析了技术的机遇与挑战,并展望了金融多模态大模型在实践中的落地展望。

快手「可图」文生图大模型应用实践

我们邀请到了李岩,他是快手「可图」大模型团队的负责人,也是中科院计算所的博士。他拥有超过 10 年的算法研发、业务落地及管理经验,在多模态内容理解与生成技术领域有着丰富的经验。他将分享关于快手「可图」文生图大模型应用实践 的演讲,向听众介绍快手首次公开发布的自研文生图大模型,以及在快手 APP 中的应用实践和效果收益,以此启发行业的发展。

在演讲中,李岩老师将回顾文生图大模型的行业发展历程,以及快手文生图大模型的研发之路,深入探讨了这一技术的技术路径和实现方式。他还将分享快手文生图大模型的周边插件能力,以及在快手 APP 中的落地应用与价值剖析,为听众提供了关于如何从零研发中文文生图基座大模型、如何准确客观评估一个文生图大模型的效果、如何选择 ROI 最高的文生图大模型落地场景、以及如何规避文生图大模型的应用风险等方面的建议和启发。

通过他的分享,听众将能够了解到文生图大模型在快手中的应用实践,以及如何在自己的工作中应用这一技术,实现更高效、更具价值的业务目标。

活动推荐:

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

会议即将开幕,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
豆包出击,直降99.3%!火山引擎开卷大模型“价格战”对话面壁智能李大海:AGI是一场马拉松,我们不急于当破风者Apple多模态最新工作4M-21:搞定21种模态!刷新多个SOTA!美股基本面 - 2024_03_08 * 午报 * 特斯拉工厂火灾疑为恐袭 德国最高检察官接管调查。比特币上涨4% 突破70,字节豆包大模型发布!“比行业价格低99%”,对话火山引擎总裁谭待互联网24暑期实习内推|NVIDIA+海康威视+快手等众多名企内推名额来啦!面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro混合云架构下,灵活可靠的 DNS 解析解决方案——火山引擎 PrivateZone三八妇女节晨游---卖鱼哥终于操刀屠杀,let america be great again豆包大模型家族发布、火山方舟升级,火山引擎如何打造全栈AI技术服务?面壁智能CEO发文回应斯坦福某AI团队“抄袭”:感到遗憾行业观察|字节做云三年,火山引擎迎来拐点月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持风神颂北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR余承东谈智选车:卖 30 万元以下都亏损/面壁智能 CEO 谈 Apple 智能/特斯拉 FSD 将在上海落地试点AI早知道|月之暗面回应Kimi推出付费方案;面壁智能推出多模态模型斯坦福某 AI 团队抄袭面壁智能开源大模型/董明珠称「打工人要休闲可以辞职」/百度被《时代》周刊评为全球领导者全日程发布|Sora之后的视频生成技术与应用面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!斯坦福团队抄袭国产大模型,面壁智能创始人:受到国际认可/百度被《时代》周刊评为全球领导者/特斯拉回应「单踏板模式被禁」传言吕洪来:取消国务院总理记者会究竟释放了什么政治信号26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要快速入门大模型技术与应用,推荐你从Stable Diffusion开始学起WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B对话面壁智能CEO李大海:开源模式更像“蚂蚁雄兵”,能够有更广泛的创新探索火山引擎国际深度学习图像压缩挑战赛蝉联冠军全日程发布,Sora 之后的视频生成技术与应用| Q推荐华为、阿里、OPPO、喜马拉雅领衔专家深度解析 AI Agent 技术与应用|AICon视频生成技术与应用 AI 技术论坛圆满收官两轮游中国 中华大地任我行 高铁边上的农村新貌2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院上海/杭州内推 | ​蚂蚁智能引擎事业部招聘多模态认知算法研究员/实习生
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。