Redian新闻
>
2022,科技大厂迷上AI作图

2022,科技大厂迷上AI作图

公众号新闻

"

连微软也推出了AI作图软件。



编辑| Light

出品 | 科技智谷



微软也忍不住对AI作图软件下手了。


据报道,美国微软公司上周三(美东时间10月12日)宣布,将推出一款名为“Desinger”的图形图像设计软件(基于 OpenAI 推出的人工智能Dell-E 2模型),用户只需要输入文字指令,软件就能够自动设计对应图案。据悉,这一软件将提供免费版,同时推出高端版,并纳入微软“Office全家桶”。


虽然微软明确表示 Adobe 将是公司的主要竞争对手,但明眼人都知道其实它是瞄准的行业内占据优势地位的另外一款设计软件“Canva”,该软件号称拥有一亿的月度活跃用户。Canva的开发商位于澳大利亚悉尼市,在去年的一次融资交易中,该公司被估值为400亿美元,成为全世界估值最高的非上市科技公司之一。


微软并非是本次AI作图热的唯一选手,在2022年8、9、10月短短三个月时间内涌现出数十个AI作图软件。例如,在今年9月,国外的一位游戏设计师去参加了在科罗拉多州博览会举办的美术比赛,并凭借一幅AI绘制的画作《Theatre Dopera Spatial》拿到了一等奖,并在其介绍中带火了AI作图软件——Midjourney;而在国内,近期也涌现出了多款AI作图APP,例如Dream by Wombo(APP)、盗梦师(小程序)等等,科技公司迷上AI作图。

01

AI作图越来越成熟

在这波AI作图热之前,AI作图已被科技大厂带入人们的视线。


2016年,国内科技巨头阿里巴巴推出了一款名为“鲁班”的AI作图系统,当时号称鲁班已经可以实现一天制作4000万张海报,平均每秒可实现设计8000张海报,按照当前阿里内部对技术岗位的评判体系,海报设计AI鲁班,已经达到了P6水准。


不过受制于技术问题,这主要是因为缺少标注数据(今天所有的人工智能都基于大规模结构化标注数据),并且无先例可循,再加上设计的不确定性(设计是个很不确定的东西,设计需求把握和结果评估都存在人类主观意识)等等原因,使得鲁班并不是像当今这样,用人类描述一段话就能生成相应的图像,还是需要人工手动添加要素的。


但大厂在AI作图上的探索并没有因此停下脚步。2021年,由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立的人工智能研究公司OpenAI发布了AI作图模型——DALL-E。在发布会上,OpenAI表示这是一个可以根据书面文字生成图像的AI系统。例如,针对提示 " 一个牛油果形状的皮包,一个模仿牛油果的皮包 ",该系统可以对牛油果皮包的想法生成几十次迭代。


2022年4月,OpenAI又发布了最新的AI作图模型——DALL-E 2,它能收集用户的需求,然后调动自己的知识储备,浏览人类历史中上亿张已有的图片,当你输入描述性语句后(支持的语言更多了),就能生成一张独一无二的图像。尽管Dall-E 2 仍然处于“第一次迭代”阶段,但该模型生成的图片已被作为商业用途使用,许多人将Dall-E 2(每周100万人使用)创造的图片用在了儿童读物的插图、新闻通讯的艺术图、游戏的概念艺术和角色图等方面。


02

AI是怎么作图的?

在这波AI作图热中,OpenAI发布的图像生成模型DALL-E 2无疑是使用最为广泛的底层模型,即便是强如微软也得乖乖使用DALL-E 2,无疑DALL-E 2代表了当前AI作图的最高水平,那么DALL-E 2是怎么作图的呢?

首先,将文本 prompt 输入到经过训练以将 prompt 映射到表征空间的文本编码器中;然后,称为先验的模型将文本编码映射到相应的图像编码,该图像编码捕获文本编码中包含的 prompt 的语义信息;最后,图像解码模型随机生成图像,该图像是该语义信息的视觉表现。

举个例子,你输入“戴帽子的小熊”后,DALL-E 2需要理解“帽子”、“戴帽子”、“小熊”等人类自然语义中词汇的概念,这个时候DALL-E 2就要调动OpenAI另一个模型CLIP理解自然语言片段。然后DALL-E 2需要反转 CLIP 刚刚学习的图像编码映射,通过使用其先前模型 GLIDE来执行此图像生成。然后,DALL-E 2 使用另一个名为“先验模型”,从图像标题的文本编码映射到其相应图像的图像编码;最后,DALL-E 2将所有的功能组件链接在一起,然后就生成了“戴帽子的小熊”。


但是哈佛大学的一份新研究论文表明,尽管DALL-E 2生成的图像很精致,但它可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系。所以为了探究DALL-E 2是否真的能理解文本中的语义关系,研究人员选择了15类关系,其中8个为空间关系(physical relation),包括in, on, under, covering, near, occluded by, hanging over和tied to;7个动作关系(agentic relation),包括pushing, pulling, touching, hitting, kicking, helping和hindering。实验结果发现,DALL-E 2生成的图像和用于生成图像的文本提示之间一致性的平均值在75个prompt中仅为22.2%。

尽管DALL-E 2生成的图像很精致,但是哈弗大学的研究报告也说了,这就是一个缝合怪,如果是想要得到真正贴合心意的图片,那么用户的体验也与哈弗的研究结果差不多——满意度较低,这也是为什么AI生成图像只能在数亿次生成实验后才能偶尔得一个创作奖,科技大厂迷上AI创作或许只是为了秀一下肌肉吧!


END



欢迎全国各地以及境外科技、消费、地产、医疗、农业、能源、环保、教育、文化、投行、基金、券商、信托、银行、保险、租赁、投资等产业及金融精英,寻找优质项目、资金及获得全球顶级金融圈层请联系Cathy,或者在菜单中点击【SOHO服务】——>【服务登记】,留下您的需求我们将竭诚为您服务。




「科技智谷」
新型科创产业服务平台,原硅谷密探,科技转化第一站,科学家CEO的摇篮。


「青年投资家俱乐部」
青年投资家俱乐部汇聚来自金融机构、政府机构、上市公司、产业公司、三方服务的数万名专家资源。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
心慌!波士顿科技大厂扩张全暂停,裁员接连不断,这是团灭的节奏?佩妮和沫沫都令人佩服科技大厂又爆裁员 微软本周解雇数百名员工2022年美国科技大厂累积裁员13.8万,留学生如何自救?!推特之后,美国科技大厂迎来全面裁员潮…或是疫情来规模最大的一次意大利和丹麦的零散片科技大厂不香了?硅谷裁员潮促人才回流华尔街“卧底”AI作图群,我发现了他们日赚千元的秘密哪些公司撒钱不手软?北美科技大厂2022年薪酬排名大公开!作图小白立马上手!用Graphpad Prism制作箱式图,看这篇就够了~丹麦现代场地走了走。你默默关注许久的科技大厂开始招收newgrad了你知道吗?▶四次登顶世界第一!2020-2022,国运之争!中国一定不会让你输!心酸11月!科技大厂裁员4.6万!接下来的人生方向该如何走?科技大厂|荣耀 2023届校园招聘审计专员岗位火热开启!卧底AI作图群,我发现了日赚千元的秘密全国妈妈统一操作图鉴?一把子被真实到了!!不香了?!美国科技大厂接连裁员,削减岗位、狂撕Offer!失业潮来了!全民AI作图潮: 小程序日增65万用户,海外月入百万美金!太刺激!科技大厂全军覆没!仅剩苹果了?科技大厂裁员也“抽签”?使用算法“随机”解雇或将成趋势……寒冬!继科技大厂,著名地产公司也开始裁员,第一轮1000人…2022 深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛圆满收官福布斯2022全球最佳雇主榜出炉:三星、微软和IBM雄踞榜首,科技大厂又赢了!18个全身各部位拉伸动作图解,动起来吧~4家科技大厂"海啸式"裁员,硅谷娇妻哭崩了Kitchener的黑白键故事龙卷风健康快递 203美国这家科技大厂惊传将大裁员?几千人或丢饭碗!公司员工慌了……求职寒冬未过!美国科技大厂裁员,一家比一家狠!一张智能床圈粉张朝阳,科技大佬们睡个好觉有多卷?刚刚!这家科技大厂迎来一位女掌门人突发!亚麻宣布冻结招聘,最后的科技大厂也顶不住了…科技大厂暑期实习卷到24年!2023秋招DDL汇总盘点裁员潮血洗硅谷!科技大厂大门紧闭,北美留学生何去何从?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。