Redian新闻
>
微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure

微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】前有ChatGPT,后有Florence,微软简直赢麻了!



2021年11月,微软发布了一个多模态视觉基础模型Florence(佛罗伦萨),横扫超过40个基准任务,轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。


时隔一年半,Florence正式开启商用阶段!


Florence能干什么?


最近,微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。



Florence模型经过数十亿文本-图像对的训练,目前已集成进Azure 认知视觉服务中,在「价格」和「性能」上都已到达「生产环境」的要求,目前处于免费试用阶段。


改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中,从图像和视频内容中获取更精确的信息,保护用户远离有害内容,增强安全性,并提升事件响应速度。


Florence的实际能力也很强大,用户可以在Vision Studio中进行「开箱即用」的体验。


体验网址:https://portal.vision.cognitive.azure.com/gallery/featured


具体包括:


Dense Captions(详细的描述)可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。


图像检索:使用自然语言查询,无缝地度量图像和文本之间的相似性,从而改进搜索推荐和广告。



背景去除:可以方便地从原始背景中分割出人物和物体,并替换为其他背景场景,从而改变图像的外观和感觉。


模型定制降低交付定制模型的成本和时间,能够以更高精度来匹配独特的业务需求,即便只有少量的可用图像。


视频摘要搜索和交互视频内容,与人类同样直观的方式进行思考和写作。可以帮助找到相关内容,并且不需要额外的元数据。



Reddit


Reddit消费品产品经理Tiffany Ong表示,通过微软的Vision技术,可以使用户更容易发现和理解Reddit上的内容。


新创建的图片描述可以让用户更容易地访问Reddit,使用图像描述来帮助用户提高文章的搜索结果,让Reddit用户有更多机会来探索网站上的图片,参与对话,并最终建立联系和社区感知。


Florence能够为每张图片生成多达10000个标签,使得Reddit能够更好地控制图片中的物体数量,并帮助生成更好的图像描述。


Microsoft 365


除了微软数据中心之外,微软也正在提升Microsoft 365应用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中视觉服务的能力。


在图像分割能力的帮助下,Teams正在推动数字空间的创新型,把虚拟会议的体验提升到新高度。


PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。


Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。


Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。


LinkedIn


LinkedIn的无障碍工程负责人Jennison Asuncon表示,LinkedIn上有超过40%的帖子中包含至少一张图片,对于盲人或是低视力的用户来说,视觉服务能够让所有用户都有平等的阅读机会,并使他们能够参与到在线对话中。



通过Azure视觉认知服务,LinkedIn可以提供自动图像描述来编辑和支持可选文本,这是一种全新的体验。


不仅我对此感到兴奋,我的同事刚刚分享了一个他们参加活动的照片,LinkedIn的首席执行官Ryan Roslansky也在照片里。


负责任地创新


回顾负责任的人工智能原则,可以了解到微软是如何致力于开发人工智能系统,以提升世界的可访问性。



微软致力于帮助各个组织充分利用人工智能,并正在大力投资于提供技术、资源和专业知识的项目,以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。


多模态是未来


包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致,认为「多模态模型」是提高人工智能系统能力的最佳途径,也就是单个模型可以同时理解语言、图像、视频和音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述等。



为什么不把几个「单模态」模型串在一起,以达到同样的目的,比如说用一个模型来理解图像,而另一个模型用来理解语言?


第一个原因是,由其他模态提供的背景信息,多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。


比如说,一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。


并且从计算的角度来看,多模态模型往往更有效率,可以提升数据处理的速度,降低后端的成本。


毫无疑问,所有商业公司都渴望降本增效。



Florence能够理解图像、视频和语言以及这些模态之间的关系,从而可以做到一些单模态无法完成的任务,比如测量图像和文本之间的相似度,分割照片中的对象,然后把它们粘贴到另一个背景上。


几乎所有AI模型的训练都面临数据版权问题,Azure AI的企业副总裁(CVP)John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息,只是说Florence使用的是「负责任地获取」的数据源,包括来自合作伙伴的数据;此外,Montgomery表示,训练数据中删除了可能存在问题的内容,也是公开训练数据集的常见特点。



Montgomery认为,当使用大型基础模型时,最重要的是要确保训练数据集的质量,为每个视觉任务的适应模型创建基础,微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试,并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。


在未来,消费者可以使用Florence做更多的事情,比如检测制造过程中的缺陷,以及在零售店实现自助结账。


不过Montgomery指出这些用例实际上并不需要多模态视觉模型,但他断言,多模态在这个过程中可以增加一些有价值的东西。


Florence是一个经过「完全重新思考」的视觉模型,一旦在图像和文本之间实现了简单且高质量的翻译过程,就会打开一个全新的、充满未知可能性的世界。


客户能够体验到显著改进的图像搜索,将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用,并轻松提高自定义模型的质量。


参考资料:
https://azure.microsoft.com/en-us/blog/announcing-a-renaissance-in-computer-vision-ai-with-microsofts-florence-foundation-model/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数GPT-4接入Office全家桶!微软这波赢麻了!OpenAI CEO 亲自辟谣「GPT-5传闻」:目前没有训练,短期内也不会训练美国著名博物馆你去过多少?(一)赢麻了!《三体》剧版登上央视,腾讯视频开播1小时就创纪录!谁在挣钱?微软杀疯了!全家桶嵌入ChatGPT,云平台Azure强到发指达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力微软员工薪水曝光!软件工程师最高年薪28.8万美元,加上股票赢麻了?上市公司CEO薪酬近3亿美元,但尽数到手太难……Netflix将沉浸式体验,玩得风生水起!怪奇物语Stranger Things 体验馆来多伦多啦!微软贺韵:Azure OpenAI在游戏NPC和制作场景中的应用AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法学完书本科学知识需上劳动大学微软谷歌大战,英伟达赢麻了!「AI摩尔定律」来了!元气超光子新品免费体验来了!速进,手慢无!盘点:澳洲这25所院校70个专业的学生赢麻了!数百刀奖学金+考证快人一步!开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDMOracle在此轮“AI云战”中比AWS、Azure的优势:多云、无竞争、收费低训练快哈哈,狗尾续貂,写一篇军挎。。中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU紫金山天文台发现新彗星;东北首条跨海地铁开启免费试乘丨科技早新闻3分钟一个大片!视频版Midjourney上线iPhone,网友实测太绚了|免费体验除了蓝兔子,还画了很多禽兽财报超预期,手持ChatGpt的微软赢麻了微软全渠道事业部首席技术官徐明强:探索AIGC趋势及微软Azure OpenAI在企业的应用|GTIC 2023演讲预告多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布传推特砍至 1300 人,马斯克:比那多一倍;1.79 亿人看「竖屏春晚」;微软发布 Azure OpenAI | 极客早知道一周快讯丨活跃LP集中在安徽,多支引导基金招GP;广州落地一支百亿文化产业基金;重庆市产业投资基金发起设立两支母基金​EACL 2023 | 图像文本检索:自适应特征聚合与训练目标老鬼 | 哥哥青柯第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%震惊!澳国防军被指控浪费数十亿澳元!数十架战机停在美军基地吃灰!全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由赢麻了!《三体》登上央视,腾讯视频开播1小时创纪录!背后公司曝光
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。