国际科技财经博客移民网络热点娱乐民生时事公众号

>

DALL·E 3 微软Bing抢先测！马骑宇航员难题攻破！一张画指定50个物体

DALL·E 3 微软Bing抢先测！马骑宇航员难题攻破！一张画指定50个物体

公众号新闻

2023-09-25 05:09

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【目标检测和Transformer】交流群

梦晨发自凹非寺
转载自：量子位（QbitAI）

DALL·E 3限量测试，已由微软Bing抢先开启，看看你是欧皇之一吗？

△来自WindowsLatest

没收到资格也没关系，再加上第三方研究预览、OpenAI员工的内部试玩，各种测试案例纷纷涌现，包看过瘾。

最夸张的一个，要数“指定画面中出现50个不同物体”，结果足足画出了几百个。

除了简单平铺排列，更可以把这些物体组合得更有创意一些。

马骑宇航员这种反事实概念，过去OpenAI和谷歌的各种模型都只能画出宇航员骑马。

在论文一般当成失败案例，当时还被AI悲观主义者马库斯好一顿嘲讽。

现在，DALL·E 3在ChatGPT加持下轻松搞定。

DALL·E 3这次这么大进步，不仅仅是OpenAI自己的努力，而是与微软通力合作的结果。

虽然没有明确说明，但贡献名单中研究部分就有至少3位微软工程师与研究员参与，推理优化部分更是大部分成员来自微软DeepSpeed团队。

回看GPT-4时还是主要由OpenAI内部研发，再给微软和其他研究机构开放权限一同测试。

这次合作模式的变化，也代表两家公司关系进一步加深。

一张画指定50个物体

由微软Bing首席执行官Mikhail Parakhin确认，最幸运的百分之几用户已经获得测试资格了。

由于名额着实有限，等不及的网友纷纷在线提出脑洞，请有号的人帮忙测试。

提出画50个不同物体的网友，就是想测试DALL·E 3一张画中能容纳多少物体，类似大语言模型的“上下文窗口”。

收到研究预览版的第三方设计师Nathan Shipley接下了这个挑战。

首先他先让ChatGPT随机列出50个日常物体，然后直接要求把这些物体都画在一幅画里就可以了。完整的提示词是ChatGPT自己补全，再由DALL·E 3画出来。

接下来Nathan问：“你能创建一个冲浪者在努力冲浪时将这些物体堆成一堆的图像吗？”

ChatGPT在提示词中补充了一些细节：

一名中年波利尼西亚男性冲浪者有被阳光吻过的皮肤，他举着50种物品，奋力冲浪，其中包括茶杯、自行车、雨伞……海浪在他周围拍打，他的表情充满决心和轻微的恐慌，试图平衡这些物体和他的冲浪板。

结果一次尝试就得到了基本符合要求的图像，只是人物表情看起来更像是非常恐慌，而不是轻微恐慌。

后来Nathan又提出换一个更低的视角的要求，这回ChatGPT把提示词中的人物描述换成了“一名西班牙老年女性”。

围观网友都觉得非常惊人，但也指出为什么铅笔的大小与其他物体不成比例。

有人猜测模型只是知道某样物体长什么样子，但不知道其相对大小，尤其钢笔宣传图片通常会采用近景。

此外Nathan还从ChatGPT嘴里拷问出了用户都能控制画面的哪些参数。

ChatGPT回复如下：

描述：您可以提供所需图像的详细描述。您越具体和详细，生成的图像就越接近您的愿望。
风格和媒介：您可以指定图像的风格或媒介，例如“油画”、“照片”、“插画”、“卡通”、“水彩画”、“3D渲染”等。
分辨率：默认情况下，图像以1729x1024分辨率生成。但如果您的描述建议使用全身肖像或更适合高纵横比的内容，则将以1024x1792生成图像。如果需要，您还可以请求正方形分辨率 (1024x1024)。
图片数量：如果您没有指定，我通常会根据您的描述创建四个不同的图片。但是，您可以请求特定数量（最多四个）。
修改：如果您对初始结果不满意，可以提供反馈并请求修改。虽然我无法直接修改现有图像，但我可以使用您的反馈来生成更符合您的愿景的新图像。
随机种子：如果您想修改以前的图像，我可以使用该图像元数据中的种子来生成新版本。这确保了原始图像和修改后的图像之间的一定一致性。
请注意，存在某些限制。例如公众人物的形象，以及最近100年内的艺术家的风格，都无法直接创建。

重点在后面：

然而，我可以提供替代方案或使用形容词来捕捉特定风格的本质，而无需直接引用它。

马骑宇航员难题破解

OpenAI内部员工中，Will DePue是最积极公开DALL·E 3试玩结果的了。

在马骑宇航员测试中，他表示其实也不是100%成功。

两至三次尝试之内就能搞定，因为GPT-4在与你一起完善提示词，直到写对为止。
只要付出一些努力，你就能得到几乎所有想要的。

有网友尝试用MidJourney获得相同的结果，只能说也不是完全不行，就是要费老大劲了。

几乎不可能，需要大量的提示工程，而且很难复现。

如果你是MidJourney资深用户，不妨试试能不能成。

网友提出的“8个长颈鹿喝水”挑战中，DALL·E 3再一次展现出很难把数字数准确的弱点。

△数数图中一共有几个长颈鹿

更多错误尝试中还出现了一个双头长颈鹿。

让AI正确计数这次没有解决，但至少解决了理解空间关系的问题。

网友提出的“四匹斑马在草原上奔跑，一头狮子在后面追赶，上面有一只鹰，图片中没有其他动物”挑战中，空间关系基本正确，但是多了一只斑马。

相比之下，DALL·E 2和Stable Diffusion对空间关系的理解都要更差。

OpenAI负责ChatGPT企业版的Adam Goldberg也晒出不少高质量结果，不过没有分享提示词。

负责AI写代码和调用工具的Jerry Tworek则搞出不少抽象概念画，如“机械细胞的分裂”。

以及“横跨银河系的计算机程序树”。

微软OpenAI通力合作

DALL·E 3这次巨大提升，除了整合ChatGPT，图像生成部分具体是怎么做到的呢？

很可惜，鉴于OpenAI越来越Close的趋势，很可能不会像前两代那样公布论文了，只能从贡献名单中略作猜测。

DALL·E 2论文共有5位作者。

而DALL·E 3暂且不看产品、安全、公共沟通和法律等团队，光研究部分就有18人参与。

其中提出一致性模型（Consistency Models）的清华校友宋飏（Yang Song）在列。

一致性模型比当前最流行的扩散模型速度更快，3.5秒就能生成64张256*256的图像。

但宋飏此次属于次要研究贡献，不确定是否DALL·E 3使用了一致性模型，更可能是在改良扩散模型中借鉴了他的方法。

此外，除了DALL·E 2作者和ChatGPT团队的欧阳龙等，至少有3位研究者来自微软。

Jianfeng Wang博士毕业于中科大，在微软任主任研究员。

Lijuan Wang博士毕业于清华大学，在微软任主任研究经理。

两人曾参与无限画布图片生成NUWA-Ininity的研究。

李琳婕（Lindsey Li）是北理工校友，分别从普渡大学和UC圣地亚哥获得两个硕士学位，在微软任资深研究员，在多模态领域有多篇顶会论文。

除了研究方面，DALL·E 3的推理优化有微软DeepSpeed团队深度参与。

Deepspeed是开源的深度学习优化库，减少计算功耗和内存使用，在现有硬件上通过更好的并行来训练和推理大规模分布式模型。

其中不少人都表示很高兴能参与这项工作，并对DALL·E 3的发布很激动。

最后，在特别贡献中，微软的Bing首席执行官Mikhail Parakhin、Azure云首席副总裁Misha Bilenko都在其中。

微软之前的发布活动中也确认了Bing会直接集成DALL·E 3。

按照现在规则，Bing上的DALL·E 2是免费的。会发放99个加速代币，没代币只是需要更长时间排队。

虽然10月份DALL·E 3在ChatGPT Plus要收费每月20美元。

但既然GPT-4在Bing上是免费提供的，将来DALL·E 3免费玩也可以期待一波了～‍

参考链接：
[1]https://x.com/willdepue/status/1705005718666158107
[2]https://x.com/CitizenPlain/status/1705248617131291032
[3]https://x.com/MParakhin/status/1704563792645079143

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

华人攻破上世纪数学难题：求一张白纸上的所有线条上共有多少灰尘｜普林斯顿&纽大科大讯飞回应美国AI芯片出口管制；DALL·E 3正式上线ChatGPT Plus和企业版丨AIGC日报 OpenAI祭出绘画神器，Midjourney一夜下台！DALL·E 3联手ChatGPT，无需prompt一笔成神 GPT-4写代码，DALL·E 3+MJ搞定画面，AI版「愤怒的南瓜」来袭 DALL·E 3内部实测效果惊人！Karpathy生成逼真灵动「美国小姐」，50个物体一图全包一个漂亮女人的现实生活 DALL·E 3 推理能力炸裂提升，OpenAI 抢跑“ChatGPT 原生”你好，我是筚（bì）篥（ lì）！对标DALL·E 3！Meta最强文生图Emu技术报告出炉随便哼两句就能变歌曲，还有国宝歌手帮你演绎，音乐的 Dall·E 2 时刻来了吹尽黄沙不见金（六十四）：不如跳舞 (二）OpenAI一夜颠覆AI绘画！DALL·E 3+ChatGPT强强联合，画面直接细节爆炸 GPT-4版微软Win11下周二见；千亿参数生物医药大模型面世；DALL·E 3模型将接入Bing丨AIGC大事日报 DALL·E 3必应开测！马骑宇航员难题攻破，一张画指定50个物体，微软前所未有深度参与研究 DALL·E 3正式上线ChatGPT；智谱AI今年已融资25亿元；科大讯飞回应美国AI芯片出口管制丨AIGC大事日报体验 ChatGPT+DALL·E 3 王炸组合后，我再也回不去了 DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”重大突破！NASA成功在火星制造氧气，足够支撑宇航员呼吸第七章科学的兴起（3）不到 600 行代码实现了《愤怒的小鸟》翻版，GPT-4+DALL·E 3+Midjourney 撼动游戏圈！DALL·E 3瞬间生成素材，零成本制作数千万流水游戏！OpenAI总裁转赞 Adobe新版AI绘画炸场，2k分辨率在线就能玩，网友：效果比DALL·E 3更强 ChatGPT与DALL·E 3之间的行业「黑话」被人发现了女子在旧相框堆花4美元淘到一张画作，挂家里墙上积灰多年！谁知竟价值百万...Midjourney V6来袭！性能对标DALL·E 3，争夺地表最强作图AI称号 OpenAI扔出DALL·E 3！能画画的ChatGPT要来了：简单提示，讲出“超级向日葵刺猬”连环画体验 DALL·E 3 + ChatGPT 王炸组合后，我感受到了甲方的快乐 DALL·E 3辣眼图流出！OpenAI 22页报告揭秘：ChatGPT自动改写Prompt 《情歌》&《不惜时光》OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等 DALL·E 3=Midjourney+PS？OpenAI悄悄推出「种子」功能，生图之后还能精修传OpenA正测试DALL·E 3模型；华为语音助手支持AI大模型；亚马逊组建AI大模型新团队丨AIGC大事日报微软深夜放大招：GPT-4 、DALL·E 3、GPTs免费用，自研大模型专用AI芯片西交、清华等发布多模态大模型，有望成为「DALL·E 4」技术路线？和AI一起「白日作梦」工作重要，还是妻子重要

热点事件追踪