Redian新闻
>
Stable Diffusion的魅力:苹果亲自下场优化,iPad、Mac上快速出图

Stable Diffusion的魅力:苹果亲自下场优化,iPad、Mac上快速出图

机器之心报道

编辑:袁铭怿
苹果亲自下场优化,在iPhone、iPad、Mac等设备上以惊人的速度运行Stable Diffusion就是这么简单。


输入一句话就能生成图像的 Stable Diffusion 已经火爆数月。它是一个开源模型,而且在消费级 GPU 上就能运行,是一项普通人就能接触到的「黑科技」。


在该模型走红之初,就有人尝试将其移植到苹果设备上运行,比如 M1 MaciPhone 14 Pro,并把教程传授给大家。


但令人没想到的是,前几天,苹果竟亲自下场了,手把手教大家如何直接将 Stable Diffusion 模型转换为自家 iPhone、iPad 和 Mac 可以运行的版本。


以下是生成结果示例:


在苹果设备上运行 Stable Diffusion 和 Core ML + diffusers 生成的图像。

苹果在 macOS 13.1 和 iOS 16.2 中发布了针对 Stable Diffusion 的 Core ML 优化,并通过一个代码库对部署过程进行了详细讲解。


在三款苹果设备(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的测试结果表明,苹果推出的相关优化基本可以保证最新版 Stable Diffusion(SD 2.0)在半分钟内生成一张分辨率为 512x512 的图。


对于苹果的这一举动,不少人感叹,一个开源社区构建的模型已经优秀到可以让大公司主动采用,确实非常了不起。


另外,大家也开始猜测,未来,苹果会不会直接把 Stable Diffusion 放到自己的设备里?


为什么要让 Stable Diffusion 可以在苹果设备上运行?


自 2022 年 8 月首次公开发布以来,Stable Diffusion 已经被艺术家、开发人员和爱好者等充满活力的社区广泛采用,能够以最少的文本 prompt 创建前所未有的视觉内容。相应地,社区在几周内就围绕这个核心技术构建了一个包含扩展和工具的庞大生态系统。Stable Diffusion 已经变得个性化,而且可以拓展到英语以外的其他语言,这要归功于像 Hugging Face diffusers 这样的开源项目。


除了通过文本 prompt 生成图像,开发人员还发现了 Stable Diffusion 其他创造性的用途,如图像编辑、修复、补全、超分辨率、风格迁移。随着 Stable Diffusion 应用的增多,要想打造出任何地方的创意人员都能使用的应用程序,就需要确保开发者能够有效地利用这项技术,这一点至关重要。


在所有应用程序中,模型在何处运行是 Stable Diffusion 的一大关键问题。有很多原因可以解释为什么在设备上部署 Stable Diffusion 比基于服务器的方法更可取。首先,终端用户的隐私可以受到保护,因为用户提供的作为模型输入的任何数据都保留在用户自己的设备上。


其次,在初次下载之后,用户不需要连接互联网就可以使用该模型。最后,在本地部署此模型能让开发人员减少或消除服务器方面的成本。


用 Stable Diffusion 产出可观的结果需要经过长时间的迭代,因此在设备上部署模型的核心挑战之一在于生成结果的速率。这需要执行一个复杂的流程,包括 4 个不同的神经网络,总计约 12.75 亿个参数。要了解更多关于如何优化这种大小和复杂性的模型,以在 Apple Neural Engine 上运行,可以参阅以前的文章:Deploying Transformers on the Apple Neural Engine。


文章地址:https://machinelearning.apple.com/research/neural-engine-transformers


上文中概述的优化原则可以推广到 Stable Diffusion,尽管它比文中研究的模型大 18 倍。为 Stable Diffusion 优化 Core ML 和简化模型转换,可以让开发者更容易在他们的应用程序中以保护隐私和经济可行的方式利用该技术,并使其在 Apple Silicon 上展现出的性能达到最佳状态。


这次发布的版本包括一个 Python 包,用于使用 diffusers 和 coremltools 将 Stable Diffusion 模型从 PyTorch 转换到 Core ML,以及一个 Swift 包来部署模型。请访问 Core ML Stable Diffusion 代码存储库以启动,并获取关于基准测试和部署的详细说明。


项目地址:https://github.com/apple/ml-stable-diffusion


项目介绍


整个代码库包括:


  • python_coreml_stable_diffusion,一个 Python 包,用于将 PyTorch 模型转换为 Core ML 格式,并使用 Python 版的 Hugging Face diffusers 执行图像生成;

  • StableDiffusion,一个 Swift 包,开发者可以把它作为依赖包添加到他们的 Xcode 项目中,在他们的应用程序中部署图像生成功能。Swift 包依赖于 python_coreml_stable_diffusion 生成的 Core ML 模型文件。

               

将模型转换为 Core ML 版本


步骤 1:创建 Python 环境并安装依赖包:


步骤 2:登录或注册 Hugging Face 账户,生成用户访问令牌,并使用令牌通过在终端窗口运行 huggingface-cli login 来设置 Hugging Face API 访问。


步骤 3:找到想在 Hugging Face Hub 上使用的 Stable Diffusion 版本,接受使用条款。默认型号版本为 “CompVis/stable-diffusion-v1-4”。


步骤 4:从终端执行以下命令生成 Core ML 模型文件 (.mlpackage)


python -m python_coreml_stable_diffusion.torch2coreml --convert-unet --convert-text-encoder --convert-vae-decoder --convert-safety-checker -o <output-mlpackages-directory>

M1 MacBook Pro 一般需要 15-20 分钟。成功执行后,构成 Stable Diffusion 的 4 个神经网络模型将从 PyTorch 转换为 Core ML 版 (.mlpackage),并保存到指定的 < output-mlpackages-directory>.


用 Python 生成图像


使用基于 diffusers 的示例 Python 管道运行文本到图像生成。


python -m python_coreml_stable_diffusion.pipeline --prompt "a photo of an astronaut riding a horse on mars" -i <output-mlpackages-directory> -o </path/to/output/image> --compute-unit ALL --seed 93

使用 Swift 生成图像


构建 Swift 项目需要:


  • macOS 13 或更新版本

  • 安装了命令行工具的 Xcode 14.1 或更新版本。

  • Core ML 模型和 tokenization 资源。


如果将此模型部署到:


  • iPhone: iOS 16.2 及以上版本和 iPhone 12 及以上版本

  • iPad: iPadOS 16.2 或更新版本和 M1 或更新版本

  • Mac: macOS 13.1 或更新版本和 M1 或更新版本


Swift 包包含两个产品:StableDiffusion 库和 StableDiffusionSample 命令行工具。这两个产品都需要提供 Core ML 模型和 tokenization 资源。


性能基准测试


标准 CompVis/stable-diffusion-v1-4 基准。该基准测试由苹果公司在 2022 年 11 月使用 iOS 16.2、iPadOS 16.2 和 macOS 13.1 的公开测试版进行。


针对 macOS 设备,执行的程序是 python_coreml_stable_diffusion。对于 iOS 和 ipad 设备,有一个建立在 StableDiffusion Swift 包上的最小 Swift 测试应用程序。


图像生成过程遵循标准配置:

50 个推理步骤,512x512 输出图像分辨率,77 文本 token 序列长度,无分类器引导 (unet 批大小为 2)。


参考文章:https://machinelearning.apple.com/research/stable-diffusion-coreml-apple-silicon


亚马逊云科技「深度学习实战训练营」


对于刚入行的开发者来说,上手深度学习并不总是一件容易的事。

想要短期提升上手能力?机器之心联合亚马逊云科技开设《深度学习实战训练营》线上实战营。实战营为期 3 周,共 6 次课程,还有 6 次课后作业,实战营期间讲师将在答疑群中随时解决同学的疑问,全程免费,欢迎希望上手实操深度学习的同学加入学习。

11月22日开营,请参与的同学务必扫码加入课后答疑群,亚马逊云科技账号注册、学习疑问、作业提交等详情均在答疑群中为大家说明。

最后附上实战营日程安排:

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
1.01亿美元融资,Stable Diffusion背后的公司两年迅速成长为AI内容生成独角兽直播预告:利用NanoEdge AI Studio在STM32上快速创建边缘AI应用Flagship CEO亲自下场,Montai利用“天然食源分子”给慢病做药把Stable Diffusion模型塞进iPhone里,做成APP一分钟出图新晋独角兽陷纠纷!「AI艺术大师」stable diffusion到底归谁所有?Stable Diffusion背后公司再融1亿美金,网友:资本的盛宴,艺术家却分不到一杯羹?这个LP出资百亿后,亲自下场做GP秋日阳台上的早餐,晚餐,下午茶。。。俄乌局势一夜间骤变,17国领导人亲自下场行动,佐科预判果然成真嘲她实绩作假?亲自下场回怼了首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代破产传言令销量暴增17倍!董事长亲自下场带货并唿吁支持国货,天府可乐回应“破产”→FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)Stable Diffusion背后的故事:独辟蹊径,开源和社区驱动的AI独角兽 | 创始人专访白家嘉:在魅力齐鲁感受中医药文化的魅力英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了网友白嫖画师原作训练Stable Diffusion引正主不满:未经同意,说用就用?Stable Diffusion新玩法,一句话帮你换图,网友魔改《戴珍珠耳环的少女》长这样毛泽东秋收起义后开始带兵打仗1.01亿美元融资,为Stable Diffusion捐赠算力的公司两年成为独角兽特斯拉前AI主管出手,Stable Diffusion使用体验拉上一个台阶,还可白嫖算力看万山红遍,层林尽染,百鱼争流--Erin dale parkStable Diffusion团队开撕!“背后公司”刚成独角兽,最新版本遭原作者抢发:这是我们的奢牌太子爷亲自下场给我们直播!一时冲动就白送的快乐只这一场!2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推丹麦王室新年决裂!二王子索吻大嫂王储盛怒?女王亲自下场废他四娃同学去世消息太意外了——一路走好龙卷风健康快递 217文件更小,质量更高,大火的Stable Diffusion还能压缩图像?类数值方法PNDM:Stable Diffusion默认加速采样方案StableDiffusion嵌入现实世界,能在墙上直接长出小猫咪,手机可玩生成式 AI 火了,Stable Diffusion 幕后开发公司 Stability AI 宣布获得 1 亿美元融资18秒完成渲染!苹果Core ML官宣深度支持Stable Diffusion 2.0Stable Diffusion、DreamFusion、Make-A-Video、Imagen Video 和下一步「最牛AI艺术家」Stable Diffusion有多值钱?种子轮融资即晋升独角兽!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。