Redian新闻
>
三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品

三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品

公众号新闻

机器之心报道

编辑:泽南、杜伟
文本到 3D 模型生成的速度一下提升了 600 倍,代码也已开源。

文本生成图像的 AI 最近已经火到了圈外,不论是 DALL-E 2、DeepAI 还是 Stable Diffusion,人人都在调用 AI 算法搞绘画艺术,研究对 AI 讲的「咒语」。不断进化的技术推动了文生图生态的蓬勃发展,甚至还催生出了独角兽创业公司 Stability AI。


技术发展的脚步并没有停止,下个突破可能是 3D 模型生成了:本周,OpenAI 开源的 3D 模型生成器 Point-E 引发了 AI 圈的新一轮热潮,刚摆上 GitHub 一天就获得了 800 多个 star。


根据与开源内容一并发布的论文介绍,Point-E 可以在单块 Nvidia V100 GPU 上在一到两分钟内生成 3D 模型。相比之下,现有系统(如谷歌的 DreamFusion)通常需要数小时和多块 GPU。


论文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》:



  • 论文链接:https://arxiv.org/abs/2212.08751

  • 项目链接:https://github.com/openai/point-e


Point-E 不输出传统意义上的 3D 图像,它会生成点云,或空间中代表 3D 形状的离散数据点集。Point-E 中的 E 是「效率」的缩写,表示其比以前的 3D 对象生成方法更快。不过从计算的角度来看,点云更容易合成,但它们无法捕获对象的细粒度形状或纹理 —— 这是目前 Point-E 的一个关键限制。


为了解决这一问题,OpenAI 团队训练了一个额外的人工智能系统来将 Point-E 的点云转换为网格。



Point-E 架构及运行原理


在独立的网格生成模型之外,Point-E 主要由两个模型组成:文本到图像模型和图像到 3D 模型。文本到图像模型类似于 OpenAI 自家的 DALL-E 2 和 Stable Diffusion 等生成模型系统,在标记图像上进行训练以理解单词和视觉概念之间的关联。在图像生成之后,图像到 3D 模型被输入一组与 3D 对象配对的图像,训练出在两者之间有效转换的能力。



当人们给出一个文本提示 —— 例如,「一个可 3D 打印的齿轮,一个直径为 3 英寸、厚度为半英寸的齿轮」时,AI 会生成符合描述的内容:



Point-E 通过 30 亿参数的 GLIDE 模型生成综合视图渲染,内容被馈送到图像到 3D 模型,通过一系列扩散模型运行生成的图像,以创建初始图像的 3D RGB 点云 —— 先生成粗略的 1024 点云模型,然后生成更精细的 4096 点云模型。


Point-E 的点云扩散模型架构。图像通过一个冻结的、预训练的 CLIP 模型输入,输出网格作为标记输入到 transformer 中。

 

OpenAI 研究人员表示,在经过「数百万 3D 对象和相关元数据的数据集上训练模型后,Point-E 拥有了生成匹配文本提示的彩色点云的能力。Point-E 的问题和目前的生成模型一样,图像到 3D 转换过程中有时无法理解文本叙述的内容,导致生成的形状与文本提示不匹配。尽管如此,根据 OpenAI 团队的说法,它仍然比以前的最先进技术快几个数量级。


Point-E 将点云转换为网格。


OpenAI 在论文中表示,「虽然 Point-E 在评估中表现得比 SOTA 方法差,但它只用了后者一小部分的时间就可以生成样本。这使得 Point-E 对某些应用程序更实用,或者可以利用效率获得更高质量的 3D 对象。」


应用前景及版权问题


也许你会问,Point-E 具体有哪些应用呢?OpenAI 研究人员指出,Point-E 的点云可用于制作真实世界的对象,比如通过 3D 打印制作。再加上额外的网格转换模型,系统在完善后可以用于游戏和动画开发工作流程。


OpenAI 可能是最新一家涉足 3D 对象生成器领域的公司,但它并不是第一家。今年早些时候,谷歌就发布了 DreamFusion,它是谷歌 2021 年推出的生成式 3D 系统 Dream Fields 的扩展版本。


虽然当前所有目光都集中在 2D 艺术生成器上,但模型合成 AI 可能是下一个重大的行业颠覆者。现代电影、视频游戏、VR 和 AR 的 CGI 效果、空间探索中的测绘任务、古迹遗址保护项目以及 Meta 等科技公司的元宇宙愿景都需要高性能的 3D 建模能力。在传统行业中,建筑公司也会使用 3D 模型演示建筑物和景观,工程师会利用模型设计新设备、车辆和结构等。


Point-E 失败的案例。


不过,制作 3D 模型通常需要一段时间,从几小时到几天不等。如果有一天解决了这一问题,像 Point-E 这样的 AI 可以改变很多,并让 OpenAI 获得可观的利润。


潜在的问题是可能会产生知识产权纠纷。3D 模型有很大的市场,包括 CGStudio 和 CreativeMarket 在内的几个在线市场允许艺术家销售他们创建的内容。如果 Point-E 流行起来并投放到市场,模型艺术家们可能会抗议,并拿出现代生成式 AI 严重依赖其自身训练数据的证据,比如 Point-E 中有现成的 3D 模型。


与 DALL-E 2 一样,Point-E 不承认也没有引用任何可能影响其代代发展的艺术家的作品。OpenAI 没有明确地说明这一问题,Point-E 论文及相应 GitHub 项目中也都没有提到版权问题。


最后,OpenAI 研究人员预计 Point-E 还面临着一些挑战,例如训练数据存在的偏差以及对可能用于创建「危险对象」的模型缺乏保护措施。因此,OpenAI 谨慎地将 Point-E 描述为一个起点,并希望激励文本到 3D 合成领域进一步发展。


不过按照 AI 作画发展的速度,我们或许很快就会看见下一轮技术爆发了。


参考内容:

https://www.engadget.com/openai-releases-point-e-dall-e-3d-text-modeling-210007892.html

https://techcrunch.com/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
你是什么粉?是三次元的电视姬!喜欢死喜欢死!ACM MM 2022 Oral | PRVR:全新的文本到视频跨模态检索子任务【庭院种菜】秋天树叶的妙用bāo huā shēng?bō huā shēng?AI老婆惨遭安乐死!技术宅小哥调教ChatGPT酱,惹怒三次元女友,含泪删库将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可今年最爱的压轴菜!3分钟出锅鲜辣爽麻,全家都被香迷糊了!微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!把Stable Diffusion模型塞进iPhone里,做成APP一分钟出图NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑NIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑里尔克诗译:我爱我生命中的黑暗时光 - I Love The Dark Hours of My Being什么是GPU?GPU和显卡的关系?GPU国产化布局?ChatGPT“克星”:用AI识别AI生成的文本,英语论文阅读笔记都能测出不像假的多少有一点真!二次元入侵三次元!Arm 芯片出货:二季度75亿颗,总出货量2400亿颗警惕!华女豪车停家门口, 不到一分钟闪电被偷,盗窃原因竟是这个..《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像AI老婆惨遭安乐死!技术宅小哥调教「ChatGPT酱」,惹三次元女友暴走,含泪删库一颗GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三维点云模型微软考虑100亿美元投资OpenAI,押注ChatGPT,Office也将加入AIOpenAI推出ChatGPT“克星”,秒辨AI生成文本,但错把莎翁判成AI你不买我不买,显卡出货量破二十年新低!红绿蓝三家混战,国产GPU引起海外关注宝藏古风寺庙打卡点,分分钟出大片,汉服小姐姐都来了WPP收购北美数字机构Fēnom Digital;凯捷旗下The Works公司公布新任命(广告狂人日报)290亿美元!ChatGPT爆火,OpenAI七周年估值翻番谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短GPU出货量现20年来最大跌幅!英伟达游戏显卡价格腰斩,AMD仍在观望鱼水之情NeurIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本毛泽东的人民战争是战无不胜的用 AI 对抗 AI!斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本AudioLDM一作解读:文本生成高质量音频,单GPU即可
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。