Redian新闻
>
大规模视觉基础模型应用在线研讨会上线!南开、港中文、南京理工和微软亚洲研究院的四位青年学者将直播讲解

大规模视觉基础模型应用在线研讨会上线!南开、港中文、南京理工和微软亚洲研究院的四位青年学者将直播讲解

公众号新闻

随着数据和模型规模的大幅扩展,大型语言模型(LLMs)的基础模型已经取得了显著的成功。很多模型通过零/少样本学习,而无需大量的任务特定数据或模型参数更新,就能拥有先进的能力,包括语言理解、生成、推理和与代码相关的任务。


视觉任务不同于语言任务,很难找到一种封闭定义去囊括所有的任务形式。那么,视觉任务的终局是什么?有没有可能做到像现在语言任务的大一统?同时,在这个大模型、多模态等前沿领域快速更新迭代的时代,研究者们又该如何在紧跟日新月异的技术发展潮流的同时,做出有自己特色的研究呢?


8月30日晚7点,智东西公开课推出「大规模视觉基础模型在线研讨会」。研讨会由南开大学副教授李翔博士参与出品。李翔博士入选了南开大学百青计划、博士后创新人才支持计划,在 CVPR、NeurIPS 及权威期刊 TPAMI 等上发表40余篇学术论文,谷歌学术总引用达7400余次,合作提出的 PVT 模型入选 ICCV21 Top-10 最具影响力工作(排名第二,第一名为马尔奖Swin Transformer)。


本次研讨会,香港中文大学博士后王文海、微软亚洲研究院研究员宋恺涛和南京理工大学在读博士杨凌风三位青年学者将参与主讲。他们将分别围绕主题《“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探》、《基于 ChatGPT + Hugging Face 解决复杂人工智能任务》和《大型视觉语言模型的细粒度视觉提示及局部定位识别》进行深度讲解。



出品人



李翔博士,南开大学计算机学院副教授;入选南开大学百青计划、博士后创新人才支持计划,主持国家自然科学青年基金,获江苏省人工智能学会优秀博士论文奖,CCF优秀博士论文提名奖;在CCF A 类会议CVPR、NeurIPS及权威期刊TPAMI等上发表40余篇学术论文,包括第一作者和通讯作者20余篇;谷歌学术总引用达7400余次,一作代表工作SKNet(CVPR19)引用1700余次;长期担任国际人工智能顶级会议AAAI、CVPR及权威期刊TPAMI、TIP、TMM审稿人,担任PRCV23领域主席,Image and Vision Computing期刊副主编。


主题介绍


香港中文大学博士后王文海:“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探


近年来,以ChatGPT为代表的大规模语言模型已在自然语言处理开放世界任务中获得了极大的成功。然而,由于其受到模态的限制,这些模型在计算机视觉和视觉语言任务中的应用仍然受到限制。


在本次分享,我们将从大规模视觉基础模型开始,探讨视觉基础模型与大规模语言模型在以视觉为中心的开放世界任务中的应用。包括:(1)大规模视觉基础模型的构建和训练;(2)视觉基础模型和大规模语言模型在开放世界视觉交互系统中协同应用;(3)更灵活的大规模语言模型在开放世界视觉和视觉语言任务中的使用方法。


微软亚洲研究院研究员宋恺涛:基于 ChatGPT + Hugging Face 解决复杂人工智能任务


利用不同领域和模态的复杂人工智能任务是迈向先进人工智能的关键一步。虽然针对不同领域和模态存在大量的人工智能模型,但它们无法处理复杂的人工智能任务。考虑到大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出色的能力,我们认为 LLMs 可以充当控制器,管理现有的人工智能模型来解决复杂的人工智能任务,而语言可以作为通用接口来实现这一点。基于这一理念,我们提出了一个框架,利用 LLMs(例如ChatGPT)来连接机器学习社区中的各种人工智能模型(例如Hugging Face)来解决人工智能任务。


具体而言,我们使用 ChatGPT 在接收用户请求时进行任务规划,根据 Hugging Face 中可用的模型功能描述来选择模型,使用所选的人工智能模型执行每个子任务,并根据执行结果总结回应。通过充分利用 ChatGPT 的强大语言能力和 Hugging Face 中丰富的人工智能模型,我们的系统(即HuggingGPT)能够涵盖许多不同模态和领域的复杂人工智能任务,并在语言、视觉、语音和其他具有挑战性的任务方面取得令人印象深刻的结果,为迈向人工通用智能开辟了新的道路。


南京理工大学在读博士杨凌风:大型视觉语言模型的细粒度视觉提示及局部定位识别


大型视觉语言模型在多个图像层级的任务上取得优秀表现,但是其潜在的知识难以被应用于局部定位识别任务。现有的零样本迁移方法使用了视觉提示的策略,但是其提示设计存在不准确、引入噪声等问题。


我们通过流程图以及实例可视化展示了我们的解决方法,并在展示了在多个数据集上的实验结果。最后,我们对各个方法进行了有效性分析,并进行了视觉提示的结果可视化。


报名方式


对「大规模视觉基础模型在线研讨会」感兴趣的朋友,可以扫描下方二维码添加小助手茉莉进行报名。已添加过茉莉的老朋友,可以给茉莉私信,发送“ 研讨会03 ”即可报名。


同时为了便于交流,针对「大规模视觉基础模型在线研讨会」还将设置专属技术交流群,并邀请出品人和三位主讲人入群。想要加入交流群与出品人和主讲人认识的朋友,也可以添加茉莉进行申请。



点个“在看”和大家一起聊聊

👇👇👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023第六届单细胞多组学研究与应用研讨会成功召开,助力单细胞研究领域发展!Cell携手中国生物物理学会:结构生物学研讨会最新嘉宾阵容揭晓,青年学者论坛日程公布!东京/北美/苏黎世内推 | Sony AI招聘视觉基础模型高级科学家/工程师/实习生主讲下一代数字门店与AI辅助决策,英特尔AI百佳创新激励计划在线研讨会上新!在线研讨会预告!主讲 AI 数字病理图像分析与生物医学成像基础方案建设【手机摄影活动】边走边拍北京/苏州内推 | 微软亚洲互联网工程院招聘AI算法与应用实习生zt应该是面向所有种族的需要帮助的穷孩子/平权法案中国同俄罗斯的伙伴关系大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构阿里云倚天实例技术公开课上线,两节课直播讲解倚天实例技术架构、应用实践与软件迁移美国最大的航母博物馆参观记2024招聘季 | 微软亚洲研究院校园招聘正式开启!浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域冷却的不止季节(85)— 母女代沟CVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViT北京内推 | 微软亚洲互联网工程院微软搜索广告算法团队招聘NLP算法实习生在线研讨会预告!主讲 NVIDIA AI 气象预测模型 FourCastNet 与 InfiniBand 网络计算技术Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用微软亚洲研究院2024校园招聘正式开启!“伶荔(Linly)”项目团队全新发布中文Falcon基础模型北京内推 | 微软亚洲研究院数据知识智能组招聘强化学习方向研究实习生基础模型定义视觉新时代:综述与展望在线研讨会预告!主讲 NVIDIA RTX™ A5500 显卡加速工业 CAD 图像渲染与性能测评微软亚洲研究院赴青海大学访问,与近千名师生论道未来创新之路关注,香江学者计划、澳门青年学者计划获选名单公布KDD 2023奖项出炉:港中文、港科大等获最佳论文奖,GNN大牛Leskovec获创新奖北京内推 | 微软亚洲研究院自然语言计算组招聘NLP方向研究实习生研讨会预告!三位大咖将直播讲解大模型驱动的互联网视频理解与生成CIPS ATT | 一线国内大模型研究学者系统讲授大模型基础及应用前景,速览课程要点!最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述让老百姓“钱袋子”鼓起来、楼市放松不会一刀切……南开大学这场研讨会谈了这些热点微软亚洲研究院推出AI编译器界“工业重金属四部曲”大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机清华人工智能研究院「基础模型研究中心」成立!唐杰任研究中心主任,孙茂松任首席科学家
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。