Redian新闻
>
隐藏在Microsoft Designer背后的新科技,让人人都是设计师

隐藏在Microsoft Designer背后的新科技,让人人都是设计师

科技


(本文阅读时间:10分钟)


编者按:在视觉图像设计中,用户的需求与最终的设计成品往往是“想象很美好,现实很骨感”。这通常是因为用户在与设计师沟通时,双方理解不一致,导致最终设计结果不尽如人意。但是,如果能够“自给自足”,借助人工智能技术为每个人赋予设计能力,是否会更容易让自己脑海中的画面变为现实?智能化设计工具 Microsoft Designer 就是一个能辅助用户成为设计师的好帮手。

2022年10月,微软在 Ignite 大会上发布了 Microsoft Designer 内测版,为 Microsoft 365 家族再添一个视觉生产力工具。2023年4月27日,经过半年的迭代和改进,微软宣布推出 Microsoft Designer 公开预览版。利用人工智能技术“猜想”用户的想法,智能辅助生成文字提示和视觉图像,Microsoft Designer 大大降低了设计难度,让人人都能成为视觉设计师。


如今,市场上充斥着各种各样视觉的设计工具,然而这些专业软件有很高的技术门槛且操作复杂,非专业人员难以熟练使用。也有一些工具提供了海量的模板库,用户可以基于模板进行修改,虽然这简化了部分操作,但其呈现效果与用户的设想仍有不小的差距。Microsoft Designer 则能够智能理解用户的需求,自动生成文字表述,实现从文字到视觉图像的自动化创造,并将这些素材用于设计项目。



作为智能化的设计工具,Microsoft Designer 将先进的科研成果快速吸纳并转化为生产力,其中包括来自微软亚洲研究院视觉计算组的 Provence、Swin Transformer 模型自然语言计算组与微软图灵团队合作的图灵通用语言表示模型系统研究组的 SPANN(存储器-磁盘混合索引和搜索系统)算法等众多前沿技术。


厚积薄发:Provence多模态内容推荐模型助力实现“一键式”设计配图


微软亚洲研究院很早就开始研究通过自然语言生成图像或视频的技术。2018年,正值短视频发展的上升时期,研究员们意识到视频化的传播形态将成为未来互联网主要的沟通交流方式。然而视频内容的制作流程繁杂,高质量视频的拍摄更需要专业人员的参与,那么是否可以通过技术创新创造出一个简化视频制作和生成的工具?在这一目标的驱动下,视觉计算组开始了文字到图像和视觉的生成技术的研究。


经过一年多的潜心钻研,2020年视觉计算组推出了第一代基于检索的文字到视频的生成模型 Provence(Retrieval-based text-to-video generation)。Provence 模型能够根据文本描述搜索相匹配的视频或图像,同时确保跨模态对应具有较高的准确率,达到了“一键式(即检索到的第一个图像推荐就是用户所需)”的水平。


Provence 模型的潜力很快就被微软 Microsoft 365 产品部门发现,并将其引入到了 PowerPoint Design Ideas(PowerPoint 设计器)功能中。为了更好地满足产品端的工程化需求,微软多个研究组的研究员们将 Provence 与 Swin Transformer、图灵通用语言表示模型和 SPANN 算法结合,在 Design Ideas 功能的底层构建了零样本多模态的内容检索引擎,让用户在几秒钟内就能通过文字自动检索出最适合于当前幻灯片的配图,并给出布局设计建议,良好的使用体验让 Design Ideas 功能的用户使用率提升了20%以上。


图1:Provence 模型分别应用于 PowerPoint Design Ideas,Microsoft Designer 及其生态系统中


2021年3月,在微软内部的骇客松(Hackathon)活动期间,Microsoft 365 产品团队通过与研究员们的思想碰撞,更加深入地了解了机器学习领域的前沿技术趋势,不仅看到了走向成熟的 Provence 检索技术,也看到了更多创新的机器学习算法的应用潜力。由此,双方共同发起了 Designer in Edge 的 Hackathon 项目,此后这一项目进入产品化迭代过程,也形成了如今的 Microsoft Designer 和 Designer Platform 这两款由人工智能驱动的产品。


微软 Microsoft 365 产品部副总裁张大川表示,“在与微软亚洲研究院多个研究组的交流中,我们看到了 Provence、Swin Transformer、图灵通用语言表示模型等诸多超前的 AI 技术理念,这些前沿技术完全满足 Microsoft Designer 及其生态系统的需求。双方的紧密合作,不仅大大加速了产品的创新周期,而且还革新了传统设计的流程。下一步,我们将共同致力于创新技术的落地应用,为全球用户提供更加便捷易用的视觉设计工具,更好地激发人们的创造力和创新力。”


“很高兴看到微软亚洲研究院越来越多的创新研究成果走向了实际应用,成为支持产品开发的核心技术。以 Microsoft Designer 为例,它的关键技术始于研究院五年前的创新突破,正是因为微软亚洲研究院持续致力于探索计算机领域前瞻性的基础研究,才使得这种拿来即用的技术转化成为可能。未来,微软亚洲研究院将一如既往地着眼于下一代革命性技术的研究,并将科研成果快速转化到微软的产品中,赋能更多用户。”微软亚洲研究院常务副院长郭百宁表示。


Microsoft Designer:从多模态推荐走向具有“创作”能力的AI


生成式视觉设计的一个关键环节是用语言或者文字将用户脑海中想象的画面清晰地表达出来。因此,微软亚洲研究院视觉计算组的研究员们进一步对 Provence 模型进行了升级,让 Microsoft Designer 在从文字描述中精准检索出用户所需图像的基础上,又实现了根据用户意图智能输出文字提示的功能。



其核心思想是基于学习到的自动模板为不同的输入文本创建不同的提示,具体包括三个步骤:


  • 首先,将用户原始输入的文本与一组字符(token)结合,这些字符是对用户所需要的设计图像的视角、样式、氛围、用途等的描述。


  • 然后,根据美术设计的评分,使用学习到的自动模板找到与不同字符匹配的最佳组合。


  • 最后,将输入文本和自动模板提示的组合返回给用户,并使用评分指标对结果进行排序,再从中检索出最佳的图像。


智能输出提示文字,为用户原始的输入文本添加了更多的描述和细节,从而激励视觉模型“创作”出更符合用户需求的结果。如图2所示:用户输入“a cat hacker wearing a VR headset”后,Microsoft Designer 自动输出了相关的提示与图像。


图2:智能输出提示文字的流程


另外,研究员们还提出了一种检索增强提示的推荐方法,通过使用提示数据库来增强自动提示的结果。随着用户对 Microsoft Designer 的频繁使用,模型会学习到更多的提示,而这些数据将能进一步提高提示质量。如图3所示,对于用户输入,Microsoft Designer 会先使用语言模型从提示数据库中检索最相似的提示文本,然后通过评估分数对检索结果排序,再将自动提示与排序检索提示结合,以获得更好的结果。由于模型具有持续学习的特性,最终将有越来越多的用户数据纳入到提示数据库中来增强提示。


图3:检索增强提示


借助智能输出文字提示和智能图像生成的双重加持,用户可以更好地用文字描述出脑海中的画面,让 Microsoft Designer “创作”更符合需求的视觉图像,并从推荐的图像中选择出最匹配需求的用于后续的定制化设计。


由人工智能技术驱动的 Microsoft Designer 极大地降低了设计工作的专业门槛,让设计更加大众化,人人都能成为设计师。未来,Microsoft Designer 还将引入更多的人工智能算法,比如个性化的智能修图、借助大模型实现平面布局等等,以此丰富 Microsoft Designer 的功能,为更多用户带来更高水平的创意和创造力生产工具。


现在就来试用 Microsoft Designer,开启属于你的 AI 设计之旅吧!

https://designer.microsoft.com/



随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。




相关论文链接:

  • Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    https://arxiv.org/abs/2103.14030

  • SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

    https://arxiv.org/abs/2111.08566

  • BEiT: BERT Pre-Training of Image Transformers

    https://openreview.net/forum?id=p-BhZSz59o4






在进行计算机科研工作和学习的日日夜夜,你或许有些科研中的问题难以开口问询,或许有些焦虑与情绪无处安放,或许在感到迷茫时需要咨询与支持。微软亚洲研究院树洞计划现已开启。你在计算机领域科研、学习、生活中遇到的难题,都可以随时随地倾倒在树洞里。后台会从树洞收到的内容中选择具有代表性的问题匹配到最同频的频道,邀请微软亚洲研究院的研究员们帮忙回答。作为一个半透明的树洞,部分问题与回应会通过微软亚洲研究院账号公开发表。


快来点击上图链接,把你的难题倾倒在树洞里吧!让我们将这些困难封存在过去,轻装上阵,继续科研新旅途!















你也许还想看:




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
精选SDE岗位 | Google、ByteDance、Microsoft等公司持续热招!Cross-border M&A crucial for APAC CP companies’ growthPrompt Engineer也保不住工作了!Midjourney发布图片生成Prompt功能“Describe”达赖喇嘛谈快乐集十多项专利的养身新科技,我们带您来体验下!给所有开发者朋友的一封邀请函:Microsoft Build 要来中国啦!| Q推荐精选SDE岗位 | Tesla、Microsoft发布新岗位!ChatGPT 在意大利恢复使用;一季度互联网企业利润增长55.2%;Microsoft 品牌 PC 配件停产 | 极客早知道普济生物发布高通量PCR临床诊断解决方案:重塑分子诊断技术格局,让创新科技惠及更多人群相爱的那天,以为是永远How a Hani Designer Is Bringing Ethnic Fusion to Chinese Fashion从Microsoft Build ,我们看到了开发者的新机遇Microsoft Surface GO 8G 128G SSD 4415Y M1824 with pen招满即止!Microsoft开放科技类2024 Internship岗位特别的珍藏精选SDE岗位 |Microsoft、Juniper Networks、Intel等公司持续热招!Hainan Airlines To Ground ‘Overweight’ Cabin Crew, Sparks Outcry免背景调查直接通过澳洲Graphic designer 平面设计师VETASSESS职业评估,这是我们最核心的业务了。Microsoft岗位专场 |海量岗位来袭!每周硅闻 | 重磅!曝“Apple GPT”内测中;裁员1000+仍将继续;Microsoft 劈腿?!日本樱花中国茶最新 Amex Offers 汇总:Microsoft $350/$1000 返 $50/$150, Bose $200返$30In Hainan’s FTZ, China Lets Foreign Universities Operate Solo精选MLE岗位 | Adobe、Bose、Microsoft等公司持续热招!每周硅闻 | Amazon开启第三轮裁员;下架5000个职位;Microsoft或将面临诉讼!弃用 Electron,微软重新设计 Microsoft Teams:速度提升 2 倍,内存减少 50%杭州招聘丨城理设计 UrbanFabric–资深建筑设计师 / 建筑设计师 / 助理建筑师 / 实习建筑师人人人人人,多地景区发布限流公告好玩不如嫂子---谈谈熟女情节精选SDE岗位 |Microsoft、Intel、Tesla等公司持续热招!Chinese Creepy Crawlies: Keeping the Pests of May at Bay案例特辑|加拿大联邦自雇申请人中,竟有一半是设计师精选MLE岗位 | Apple、KLA Corporation、Microsoft l等公司持续热招!最新案例:232414 Web designer 网页设计师|225113 Marketing specialist 市场专员每周硅闻 | 突发!Microsoft被曝裁员!Google陷侵权危机;马斯克搞替身文学?!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。