Redian新闻
>
计算机视觉迈入“大模型时代”,又现“大一统”“小而美”之辩

计算机视觉迈入“大模型时代”,又现“大一统”“小而美”之辩

科技

计算机视觉正在迈入“大模型时代”。前不久,来自UC伯克利计算机视觉领域的三位知名学者(Trevor Darrell、Jitendra Malik、Alexei A. Efros)联手推出了第一个无自然语言的纯视觉大模型(Large Vision Models),并第一次证明了纯视觉模型本身也是可扩展的(scalability)。随后,谷歌、微软等国际大厂公布了对视觉大模型的探索,国内百度、华为、商汤、智源、中国电信、美图等多家公司也都展示了相关布局。继自然语言大模型之后,视觉大模型会成为下一个风口吗?

视觉大模型的训练难度更高

也许很多人会疑问:在遍地都是大模型的今天,训练出一个优质的视觉大模型很难吗?随着大语言模型的爆发,不管是学术界还是业界,都开始尝试使用“文本”来扩大视觉模型的规模。以“苹果”为例,在训练时只需给模型看“苹果”的照片,并配上描述性的文字告诉模型“这是一个苹果”。然而,在面对更加复杂的图片时,就很容易忽略其中大量的信息,造成错误理解。比如,一面镜子中倒映的车辆可能会被模型误判为真实车辆。

“相比于大语言模型,视觉信息一般都是2维(图像)、3维(立体图像)或者4维(立体视频)信息,比语言信息多了1-3个维度,难度等级呈指数增长。”一位深耕AI深度学习的专家说道。

业内人士普遍认为,视觉并非自然语言,作为基本视觉单元的像素距离高层语义更远,找不到像“单词”这样离散化、符号化的基本语义单元,因此简单地借鉴预训练语言模型的实现方法恐难奏效。

视觉句子使我们能够将各种视觉数据格式化为图像序列的统一结构

赛迪顾问人工智能产业研究中心常务副总经理邹德宝向记者介绍说道:“视觉大模型是一种利用深度学习技术来进行图像或视频处理的算法模型。它的基本原理是基于神经网络,通过大规模的训练数据集和高性能的计算硬件,实现对图像信息的高效处理和理解。”

与语言模型相比,视觉模型的数据更难获取。对于语言模型来说,语言数据对所有数据都有一个自然的、统一的一维结构——文本流,获得大量的、多样化的大数据集相对而言是件很容易的事,所以目前市面上的语言大模型动辄就是成千上万亿的参数规模。

然而在计算机视觉领域,不同的数据源都有不同的结构,想要拥有同样规模和多样性的数据源非常困难。华为云人工智能首席科学家田奇表示,视觉模型提取特征可能是百倍、千倍的工作量,信息密度非常低。花费的成本、数据存储等开销巨大。

除了数据获取难,视觉大模型的训练框架也是一大难点。大华股份先进技术研究院院长殷俊表示,在视觉领域没有可参照的模型架构,和现在大众认知的AGI、AIGC技术方向存在差异,在CV(Computer Vision计算机视觉)领域完全靠自己搭建。

“如何处理更复杂的图像信息,获取高分辨率的图像并让机器识别图像各要素,这些技术难点不解决,很难打造出一个优质的视觉大模型。”邹德宝坦言。

或将在工业制造场景率先落地

近年来,伴随制造业加速转型升级,智能制造已经成为人工智能技术在工业领域中最典型的应用之一。据中国电子信息产业发展研究院信息化与软件产业研究所数字经济战略研究室主任高婴劢介绍,人工智能技术能够帮助机器通过图像学习、声音识别、感知监测等方式,快速、准确地检测产品,在减少人工质检成本、提升产品质量和生产效益方面的作用显著,在手机、家电、汽车等离散制造行业质检环节中的应用渐成规模。

视觉大模型或将率先落地在工业制造领域。宁德时代首席制造官倪军曾提出“极限制造”的概念。他表示,工业领域做到6σ(每百万个产品里头有一两个不良品)远远不够,而是需要做到9σ-12σ,即对不良品的要求上升到十亿级,每十亿个产品当中,只允许出现1-3个不良品,这对机器视觉厂商是个极大的挑战。而如今有了视觉大模型的助力,“极限制造”或许有机会走进现实。

Meta开源DINOv2视觉大模型

事实上,很多工业制造场景都为视觉大模型提供了落地的可能。试想一下,如果给智能网联汽车配备上视觉大模型,困扰自动驾驶多年的视觉感知问题可能会迎刃而解。具备强大的图像处理和识别能力的视觉大模型,可以更为精准地识别车辆、行人、车道线等道路元素,并处理城市道路、高速公路、雨雪天气等更加复杂的场景和环境,从而提高自动驾驶车辆在各种场景下的适应性和鲁棒性。智能网联汽车将会迎来更多可能性。

如果让工业机器人搭载上视觉大模型,它可以模仿人类视觉系统的工作原理,对视觉数据进行更为精准的处理和分析,进一步破解工业机器人操作和控制“精度”的难题,还能不断进行学习成长,让工业机器人加速走向“具身智能”,也让智能制造迈上新的台阶。

再比如在工业质检领域,产品质检涉及到大量数据和复杂的图像、声音、视频等信息,要求模型能够准确地识别和分析各种缺陷和问题,甚至是微小的变化。用工业知识和工业数据训练出来的视觉大模型可以捕捉到产线上工艺流程和设备运行等细节,大幅提升工业质检的效率与水平。

不过,现阶段来看,视觉大模型在工业领域的应用仍处于早期阶段,落地还面临很多挑战。例如,视觉大模型的训练和部署需要大量的数据和计算资源,而这在某些工业环境中可能难以满足。工业数据敏感性高、特殊性强,对大量实时数据、多种类型数据、异常数据的处理和分析,是一项异常复杂的工作,同时数据安全保护也是一大难题。此外,视觉大模型的准确性、稳定性和可靠性也需要在实际应用中进行不断地验证和优化。

视觉大模型要追求“大一统”?

“在视觉模型设计领域中,追求大和统一,已经成为当下公认的重要研究方向。”旷视研究院主任研究员张祥雨表示。在他看来,构建大而通用的模型的好处在于“大反而简单”。

所谓的“大”,不仅指模型更深(越深的神经网络具有越多的参数、越强的非线性,可以建模更加复杂的任务),更加强调利用更多的数据和算力帮助人们解决通用问题,期望用统一的模型解决多个模态、多个任务。

除了“大”,“统一”也是一个研究方向。追求通用框架的意义在于可以大规模地从数据中学习知识,无需针对每个任务单独设计一套系统,避免引入大量人工,可扩展性强。从宏观的角度来说,想要解决通用人工智能问题,首先需要实现模型的规模化扩展。

“尽管‘大’是未来模型发展的趋势,但我们并不片面地追求更大的参数量和计算。同样地,我们也不应该简单追求形式上的‘统一’,更应关注统一带来的性能收益。我们希望设计出更强大的模型,以创新算法充分发挥大数据、大算力的威力,随着参数量、训练算法的提升在某个时间点上获得性能的质变,即‘涌现’。”张祥雨表示。

虽然视觉大模型能为机器学习带来更广泛的应用场景和更高的表现能力已成共识,但广东工业大学教授蔡念表示,这需要海量的数据支撑,企业如果想用好大模型,就要不断挖掘工业制造数据,为大模型提供足够的训练数据来源,此外还需要考虑参数和算力的问题。这些要求对于大企业而言问题不大,但巨大的成本是很多中小型企业难以负担的。

蔡念认为,此时不如考虑小模型和轻量化大模型。智能制造场景化、碎片化明显,这就需要专注于特定领域进行训练,进行不同场景的模型定制化,最终形成某一领域的通用模型。这意味着,机器视觉的理想未来,是在复杂的应用场景中打造标准化的应用方案。

延伸阅读:
电子纸翻开“全彩”一页?
AI PC元年将至,NPU到底怎么用?


作者丨宋婧
编辑丨赵晨
美编丨马利亚
监制丨连晓东

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纪念克强李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花土耳其之行(3):以弗所古城博士申请 | 香港科技大学(广州)李昊昂老师招收计算机视觉方向全奖博士/RA/实习生上海内推 | 腾讯优图实验室招聘计算机视觉/多模态方向算法实习生“离婚吧,条件随便你提。”“我要你最贵的那辆超跑.”“可以。”“诚郊的别墅。”“行。”“结婚两年赚的AA。”联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型做好工业大模型的“大”“工”“业”文章大模型时代的计算机系统革新:更大规模、更分布式、更智能化计算机视觉迎来GPT时刻!UC伯克利三巨头祭出首个纯CV大模型!星河湾-芝大、上外附、包校计算机牛娃分享!美国信息奥赛唯一官方推荐计算机理论夏校来上海了……20万读老牌国际校,孩子连吃饭都要抢?!帝都妈怒选朝阳“小而美”民办校,学术“终于吃饱了”…芯片设计迈入“上云”时代免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!金出武雄和他的中国学生们,计算机视觉五十载风云快消校招 | KK集团管培生项目开启!22届可投,小而美,全国有岗,适合留学生博士申请 | 美国佐治亚大学卢国玉老师招收计算机视觉/深度学习方向全奖博士生科研上新 | 语言-音乐对比预训练;查找表实现的神经网络推理;大模型时代重新定义搜索框架冬季时间是从今天的几点开始的?小说:兰欣与乌茶 36一文解读:如何理解“大模型时代”的狂飙趋势?|投资笔记第162期NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较罗援:惊涛骇浪中的中国国防自信——不论“大打”“中打”“小打”!外企社招 | SKF斯凯孚社招岗位来袭!小而美瑞典外企,18薪,月薪22-40k,六险一金,适合留学生外企社招 | AfterShip爱客科技社招岗位来袭,小而美外企,月薪28-38k,远程办公,适合留学生“小而美”Tauri已支持iOS和Android,你还在用“技术毒瘤”Electron?大模型时代,这个方向更好发论文了!计算机视觉大牛卢湖川教授当选IEEE Fellow!魔都家长择校风向变了!他们放弃老牌名校选择“小而美”,4年后结局令我意想不到…大模型时代,计算创新如何为应用性能提升开启新路径3月开始中泰迈入“免签时代”,开启泰国旅游新纪元闲题全奖博士招生!英国伯明翰大学计算机视觉及图形学方向
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。