Redian新闻
>
对话三位IEEE专家:如何理解SAM视觉大模型

对话三位IEEE专家:如何理解SAM视觉大模型

公众号新闻

点击蓝字 关注我们

SUBSCRIBE to US



正在流行的视觉AI大模型SAM究竟是一种什么样的技术,会形成什么样的产业影响?经济观察报就此采访三位IEEE(电气电子工程师学会)专家,解读了视觉大模型SAM技术、应用路线以及对原有产业的影响。


今年4月,Meta公布了一款名为SAM(Segment Anything Model)的技术,这是一款用于图像分割的AI大模型,会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器下命令。


IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,SAM是视觉领域的通用大模型,很多报道中把它比喻成视觉领域的ChatG-PT,SAM和ChatGPT的支撑技术和应用场景都是不同的,但是在通用性这一点上,它们都是当前技术发展趋势的代表者。


SAM技术、应用路线和颠覆性


作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理。


IEEE数字化转型联合会策略与架构主席汪齐齐对记者表示,高效准确的图像分割结果,对于日常生活和商业场景,甚至科研领域都具有重大意义。正因为如此,其在计算机视觉领域一直是个重要的课题。SAM的图像分割功能,是机器视觉的核心任务之一。过去,机器视觉分割图像的过程需要大量图像标注、堆叠算法,消耗大量算力。如今,SAM更容易地实现了机器视觉的目标。


Meta将SAM大模型和背后数据集一并开源,相关的研究手稿也于今年4月5日发布在arXiv上(用于学术交流的预印本平台),作者有Alexander Kirillov,Eric Mintun等12人。


此后,SAM在开源社区Github上获得大量关注,一些华人学者又照此原理提出了相关的大模型GroundingDI-NO,用于物体检测,不久GitHub上有人再创新,将GroundingDINO和SAM结合,达到了对图像识别、检测、分割的效果。


汪齐齐表示,该模型在准确程度、效率上,达到了惊人的提升。尤其是SAM开源的SA-1B数据库,用巨量的图像以及更加巨量的Mask(这里译为图层遮罩),将有助于许多科研项目和商业化项目在高起点上快速更新迭代,产生更好的模型和更优化的数据。


Meta从AR、VR、内容创建等领域,介绍了SAM的应用场景。中国的专家看到了更广泛的应用场景。


罗训对记者表示,鉴于计算机视觉的广泛应用场景,SAM的发布对产业的影响也会是巨大的,会赋能更多的长尾创新者进入产业,并进一步丰富应用场景和商业模式。


汪齐齐表示,早前人工智能技术就能实现回答用户问题的功能,而Chat-GPT第一次让很多人产生了“生成的回复可以在接受的比例下用于日常、商用和科研”,并因此达到了在这个垂直领域前所未有的高度。目前SAM的分割结果,以及其公开的大量供公众使用的资源来看,SAM在其擅长的垂直领域也达到了相当可观的高度,并会从技术、数据以及对于这个领域的关注度等多方面帮助计算机视觉在短时间内产生大量突破,而计算机视觉,是一个非常重要的“广义AI生态”中的基础设施,该方面的突破将实现对数字化世界的理解和升级,带来质变的效率和价值提升。


IEEE会士、河海大学信息科学与工程学院院长韩光洁对记者表示,SAM将会在自动驾驶、安防控制、医学影像处理等应用领域改变业态布局,甚至引发技术革命。SAM作为一个基础模型,可为这些应用领域快速孵化出适用性更强的专用网络模型。


SAM的变革性可能会颠覆一批原有的AI技术优势。汪齐齐表示,视觉大模型会在相当多的领域抵消技术壁垒,这在任何一次产业技术升级中都多次出现,也是无法避免的。


罗训表示,通用大模型就相当于AI的能力开放平台,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱,取决于它们的转型。


罗训举例称,回顾移动计算在本世纪前十年的变化,iOS和安卓的能力开放平台在赋能长尾创新者方面起到了非常重要的作用,极大增加了移动计算产业规模。在移动计算领域,WindowsMobile和塞班的封闭平台最终因为缺乏竞争力而退出了市场。


汪齐齐表示,作为有核心技术储备和深入理解的企业,首先是需要拥抱大模型,尤其是应该感谢相对公开的大模型,将自己对于产业的理解和领先部分,在大模型的加持下快速升级,演化出更新的形态。同时,计算机视觉领域也一定会有大模型目前还不擅长的领域,仍然可以作为技术壁垒,并在这些方面继续深挖独有优势。


AIGC带来知识和技术的平权?


此前有科技企业表示,AIGC的本质是技术平权和知识平权,这在很大程度上将大厂与小厂拉到了同一起跑线上。


罗训就该观点对记者表示,技术和知识平权的说法并不是很准确,因为之前并没有系统性的歧视。AIGC带来的是“易得”,本质上是市场规模急剧扩大后的成本降低。AIGC会促进整个社会对算力和计算模式使用的转型升级,大规模提高AI使用者的生产效率,同时利好AI软硬件设施生态企业。过程中,巨头和大厂是技术进步的先期投入者,它们在其周期内获取回报也是合理的,因为它们付出了更高的成本,也承担了更大的风险。


汪齐齐认为,AIGC确实带来了一定的技术平权,但技术本身是有一个价值属性的。例如,曾经做网页可以带来不菲的收入,随着工具升级和模板的完善,一个漂亮网页制作难度数量级地下降,但是他带来的价值也产生数量级地下降。


同样,AIGC将一个需要大量技术和知识储备才能产生优质内容的时代,带入轻易产生的优质内容的时代,这会让原有定义的“优质内容”的平均价值急速下降。


汪齐齐表示,AIGC是否带来了知识平权仍然有待商榷。长期来看,AIGC可能会使人们更容易获取到真实有用的知识。但是今天,人们还处于“技术带来了前所未有的体量的知识,也同时让筛选这些知识的可用度达到了前所未有的高成本”。


汪齐齐表示,尽管AIGC可以产生大量的知识和内容,但其准确性和可信度是个挑战,相当部分AIGC是基于老的训练数据,“一本正经供应错误知识”的案例已经有很多。目前在大量、无法辨别真伪的数据和内容的情况下,是否真正达到了知识平权,是要打问号的。


微信号|IEEE电气电子工程师

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


生成式人工智能将如何影响网络安全领域的技能差距

新兴人工智能网络安全的挑战和解决方案

您是否应该担心机场网络安全威胁?

在家工作时保护数据安全的网络安全技巧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
systemd:初学者如何理解其中的争议 | Linux 中国赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat如何理解民企人大代表的免捕权?深入理解Serverless计算的并发度从「最强2D」升维「最强3D」!智源联合清北重磅发布10亿参数Uni3D视觉大模型北京/上海/深圳内推 | 百度视觉技术部招聘内容理解/3D视觉等方向算法实习生我们该如何理解“房屋养老金”,钱从哪里来?单向树洞:如何理解「爱」火星乐园第三部《灰界》第二十九章 历史迷雾王巍:如何理解中华文明五大特性?【外汇商品】如何理解非农与ADP就业分歧——评7月美国非农数据如何理解日本资产负债表衰退?中国有何不同?三访英国湖区(1):轶事三则视觉大模型高效应用方法盘点(内附论文代码)端午节快乐一文盘点视觉大模型高效应用方法直播预告 | 日本核污水排海,该如何理解?如何应对?【固定收益】如何理解债市资金面?Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用这个否定句应该如何理解?一个「疯子」如何理解「疯子」「鹭声」论战争与斗争:如何理解俄乌、巴以冲突?百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star台海观澜 | 如何理解大陆的这套对台“组合拳”用Reiki治脚扭伤在国内追讨退休养老的钱 (2) (多图)探索“视”界 放眼未来CIVC 2023第一届中国工业视觉大会顺利举办美图自研视觉大模型3.0发布!能“脑补”生图和精准修图,100天全面进化研讨会预告!三位大咖将直播讲解大模型驱动的互联网视频理解与生成奥地利学派是如何理解投资的|巴伦读书会美图吴欣鸿:视觉大模型的应用普及将在2026年后进入成熟期更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」美图视觉大模型 3.0:让设计师做甲方经典名句“Love is a touch and yet not a touch”,如何理解,如何翻译?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。