Redian新闻
>
小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon

小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon

公众号新闻

随着大模型的广泛应用,多模态技术被认为是未来发展的方向。然而,尽管前景广阔,但其面临着诸多挑战和困难,如数据融合、模型融合、跨模态信息融合等方面的技术难题。在 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,我们特别策划了多模态技术与应用专题,由小米 AI 实验室机器学习团队技术主管孟二利担任专题出品人,精心评选了以下四位专家来分享他们的见解:

声音基础模型如何推动声音理解和生成

首先,我们非常荣幸地邀请到王育军,他是小米的语音技术负责人,也是技术委员会 AI 实验室声学语音方向的负责人。在学术界和工业界从事声学语音方向已有 20 年之久,拥有丰富的经验。他的研究兴趣包括声音的感知、理解、生成与展现。他领导的声学语音团队于 2017 年成立,涵盖了语音理解、生成与测量三个领域,团队下设 17 个子方向,包括语音识别、声音分析还原、语音合成等。他们为小米的手机 AIoT 平台提供语音服务,日均提供服务 12.6 亿次,并先后获得 7 项国内外声学语音挑战赛冠军。

王育军将在演讲中重点介绍小米声音基础模型的演进,以及声音基础模型如何从编解码两侧精准助力声音的理解与生成。通过他的分享,听众将了解到声音基础模型在推动声音理解和生成方面的重要作用,以及当前面临的挑战和未来的展望。

迈向实用化多模态大模型

其次,我们也荣幸地邀请到姚远,他是面壁智能的研究员,也是清华大学计算机系的博士后。他在多模态大模型、信息抽取和知识图谱等领域有着丰富的研究经验。他将分享关于迈向实用化多模态大模型的演讲,重点介绍了团队在这一领域的最新工作和成果。

在演讲中,他首先将分析了多模态大模型在实用化过程中所面临的挑战,包括参数规模、计算成本、图像感知分辨率、语言能力等方面的限制。随后,他会分享了团队近期的前沿探索,涵盖了端侧基座大模型构建、高清图多模态大模型、多模态能力跨语言泛化以及多模态人类反馈强化学习等方面。

其中,他会重点介绍了团队构建的高效端侧多模态大模型系 MiniCPM-V 2.0。这一系列模型总参数量为 2.8B,具备多项突出特点:性能领先,在常用评测基准上综合得分优于主流模型;OCR 能力突出,支持高清图像编码,并在双语支持和可信行为方面取得显著成绩。MiniCPM-V 2.0 在国际开源平台 HuggingFace 上表现优异,获得了广泛的关注和认可。

通过他的分享,听众将能够深入了解当前多模态大模型在实用化过程中所面临的挑战,并掌握针对这些挑战的优化策略和技术方法,从而更好地应用于实际场景中。

多模态大模型在金融行业的实践和展望

我们也荣幸邀请了周思霁,她是火山引擎的金融解决方案总监兼金融大模型负责人。她致力于推动人工智能在金融行业的落地应用,在自然语言处理、机器学习和计算机视觉等领域有着深入的研究和行业经验。她将分享关于多模态大模型在金融行业的实践和展望 的演讲,深入探讨了这一领域的关键问题和前景。

在演讲中,周老师将指出大模型从单模态向多模态的转变将为各行各业带来新的生产力工具,可能引发商业模式的革命性变革。特别是在金融行业,利用多模态方法综合处理文本、数字、表格和视觉数据,可以全面理解金融专业文件,从而提升技术在金融领域的应用效果。

此外,她还将深入分析了多模态大模型技术在金融领域的发展趋势和应用场景。她也将探讨海内外多模态大模型发展的趋势,深度解析了技术的机遇与挑战,并展望了金融多模态大模型在实践中的落地展望。

快手「可图」文生图大模型应用实践

我们邀请到了李岩,他是快手「可图」大模型团队的负责人,也是中科院计算所的博士。他拥有超过 10 年的算法研发、业务落地及管理经验,在多模态内容理解与生成技术领域有着丰富的经验。他将分享关于快手「可图」文生图大模型应用实践 的演讲,向听众介绍快手首次公开发布的自研文生图大模型,以及在快手 APP 中的应用实践和效果收益,以此启发行业的发展。

在演讲中,李岩老师将回顾文生图大模型的行业发展历程,以及快手文生图大模型的研发之路,深入探讨了这一技术的技术路径和实现方式。他还将分享快手文生图大模型的周边插件能力,以及在快手 APP 中的落地应用与价值剖析,为听众提供了关于如何从零研发中文文生图基座大模型、如何准确客观评估一个文生图大模型的效果、如何选择 ROI 最高的文生图大模型落地场景、以及如何规避文生图大模型的应用风险等方面的建议和启发。

通过他的分享,听众将能够了解到文生图大模型在快手中的应用实践,以及如何在自己的工作中应用这一技术,实现更高效、更具价值的业务目标。

活动推荐:

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

会议即将开幕,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B大模型助力具身智能、电池研发与蛋白质研究,讯飞、深势科技、字节专家齐聚分享|AICon三八妇女节晨游---卖鱼哥终于操刀屠杀,let america be great again特斯拉是技术人心中的 TOP1、小米、问界等国产品牌尚有差距? | 问卷调研8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性混合云架构下,灵活可靠的 DNS 解析解决方案——火山引擎 PrivateZone26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要AI早知道|字节AI教育平台Gauth占美国教育应用第2名;钉钉AI多模态升级;亚马逊向Anthropic追投27.5亿美元对话面壁智能李大海:AGI是一场马拉松,我们不急于当破风者华为、阿里、OPPO、喜马拉雅领衔专家深度解析 AI Agent 技术与应用|AICon北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同「光驭科技」完成1亿元A轮融资,持续推进光子晶体超材料技术创新和商业应用|36氪首发风神颂月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持火山引擎国际深度学习图像压缩挑战赛蝉联冠军揭秘 AI 多模态融合的“智慧核心”:六校联合发布低质数据融合新篇章任泽平:新能源上半场看锂电,下半场看储能、氢能、智能驾驶快手磁力引擎 :2024快手大健康行业数据报告两轮游中国 中华大地任我行 高铁边上的农村新貌美股基本面 - 2024_03_08 * 午报 * 特斯拉工厂火灾疑为恐袭 德国最高检察官接管调查。比特币上涨4% 突破70,全日程发布|Sora之后的视频生成技术与应用字节豆包大模型发布!“比行业价格低99%”,对话火山引擎总裁谭待低质多模态数据融合,多家机构联合出了篇综述论文67人死亡,20人失踪!洪水、泥石流、火山冷熔岩流“袭击”,19座桥被毁,当地超4000人被疏散豆包出击,直降99.3%!火山引擎开卷大模型“价格战”豆包大模型家族发布、火山方舟升级,火山引擎如何打造全栈AI技术服务?视频生成技术与应用 AI 技术论坛圆满收官全日程发布,Sora 之后的视频生成技术与应用| Q推荐新房疲软价格下跌,多伦多库存创10年新高,买家不肯出手等央行降息辉羲智能联合创始人领衔,联想博泰映驰大咖出席!中国智能汽车算力峰会首批嘉宾公布吕洪来:取消国务院总理记者会究竟释放了什么政治信号
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。