Redian新闻
>
OpenAI又一新项目,火了!已开源!

OpenAI又一新项目,火了!已开源!

科技

大家好,我是 Jack。

OpenAI 又有新动作了,开源发布 Shap-E。

今天,我继续手把手教学。

算法原理、环境搭建、效果测试,一条龙服务,尽在下文!

一、Shap-E 效果

Shap-E 算法的功能,简单来讲就是根据一段文字描述,生成对应的 3D 模型,一起看几组效果。

输入文字:

A chair that looks like an avocado

(翻译:一把看起来像鳄梨的椅子。)

Shap-E 输出对应的 3D  模型:

输入文字:

A spaceship

(翻译:一艘太空船)

Shap-E 输出对应的 3D  模型:

输入文字:

An airplane that looks like a banana

(翻译:一架酷似香蕉的飞机)

更多生成效果:

目前 OpenAI 已经开源了 Shap-E 的代码。

二、算法原理

Shap-E 还是用到了潜空间扩散模型(Latent Diffusion)。

熟悉 Stable Diffusion 的小伙伴应该对于这个概念并不陌生,其实就是将一些高维信息,降维表示到一个特定的特征空间,然后再根据这些特征,做生成。

Shap-E 整体结构也是类似的 Encoder - Decoder 结构。

不过输入和输出变了,比如 Shap-E 的 Encoder 结构是这样的:

输入是点云模型,经过降维、交叉注意力层、Transformer等结构,最终获得一个 implicit MLP。

至于 Decoder 则采用 STF Rendering 进行渲染,同时加入了 CLIP 的 text embedding。

Shap-E 支持多模态,输入既可以是文字,也可以图片。

三、算法部署

项目地址:

https://github.com/openai/shap-e

算法部署并不复杂,Shap-E 只依赖于 CLIP。

可以单独创建一个名为 shape 的虚拟环境。

conda create -n shape python=3
conda activate shape

然后安装好 CLIP 的一些依赖。

conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0
pip install ftfy regex tqdm

进入 Shap-E 项目的根目录,直接 pip 安装即可。

pip install -e .

pip 会根据 setup.py 进行安装。

我网速不太给力,本地搭建环境,大概花费了 1 个小时。

shap_e/examples/sample_text_to_3d.ipynb 是 text 生成 3D 模型的代码。

shap_e/examples/sample_image_to_3d.ipynb 是图片生成 3D 模型的代码。

在 A10 机器上,生成一次 3D 模型,大概需要花费 25 秒。

四、最后

当然,因为数据集等方面的原因,有些 3D 模型生成的效果还是挺差的。

比如我测试了A dog,得到了这么一个东西:

我输入A cat,得到了:

通过图片,生成 3D 模型,对于图片的要求很高,必须是白色背景的图片,效果才可以,或者干脆是透明背景。

在 Huggingface 也有人搭建了这个服务,非官方项目,但使用的是官方代码:

https://huggingface.co/spaces/hysts/Shap-E

我发出来之后,估计就有不少人排队了,可以错峰试玩。

测试了一番,我的感受是这样的:

如果你是这个方向的研究生,那这篇论文值得看,算法也值得跑一跑,一些思想可以参考,说不定下一篇 best paper 就是你的了。

但如果你是个吃瓜群众,那就别浪费时间跑了,效果还不到直接可用的程度,没有图片生成那种惊艳的效果,不能直接用来做一些素材的生产。

好了,今天就聊这么多吧,我是 Jack,我们下期见~

·················END·················

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源4个令人惊艳的ChatGPT项目,开源了!AIGC也太猛了...开箱即用,5个令人惊艳的AI项目,开源了!这个免费良心的开源项目,为啥要把国产软件们钉在耻辱柱上?微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型晨游,爱美丽跳盒子,what is fitness​Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!Llama-X开源!呼吁每一位NLPer参与推动LLaMA成为最先进的LLMOpera推出Opera One,将取代Opera浏览器分享一篇最近5部热播剧的剧评肝就完了!518 页完整版 PDF 开源!机器人反抗人类视频爆火,背后还有AI神器加持!《头号玩家》男主创业项目,内测已开刺激!多伦多大瀑布又增新项目:高空漩涡探险,星空下攀岩!7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型他的2023新作人体出炉!挥洒自如!人物风景静物高清收藏版谷歌、OpenAI 都白干,开源才是终极赢家!谷歌内部文件泄露:欲借开源打败 OpenAIAI进化太快了,新项目已开源!加拿大奇幻乐园Wonderland本周开放!新项目登场GPT-4强到离谱,OpenAI拒绝Open!首席科学家:开源并不明智,我们之前错了3 个腾讯开源的 GitHub 项目,足够惊艳!又一大佬冲向 ChatGPT 风口!美团王兴宣布投资王慧文创业项目,共同打造“中国 OpenAI”GPT-4竟被CS学生「开源」了!OpenAI威胁:不撤下项目就告你冲!多伦多Wonderland本周开放!新项目来了!肾上腺素拉满!好家伙,这新项目太优秀了,快开源!Hélène Binet:光的哲学家陈天奇等人新作引爆AI界,手机也能原生跑大模型了!已开源!闲话人生(235)沉痛悼念发小方容重磅内幕:OpenAI即将开源新模型!开源社区的繁荣,全靠大厂「施舍」?申研捷报 |【新加坡国立大学】QS第11,商学院新项目!坐拥多个TOP级开源项目,不搞“竞争性开源”,蚂蚁在玩一种很新的开源华春莹打call、全国瞩目,贵州「村超」爆火出圈!背后这片神仙秘境,才是真正的隐世桃源!朴树,你变了……国外空间推进新兴技术现状:新技术和新项目面壁智能OpenBMB开源社区招聘:「破壁英才」实习生项目Agustín Hernández:中美洲建筑背景下的未来主义巨构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。