Redian新闻
>
打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

科技
这可能是
最懂文字
的AI模型


没有谁能一直称王,但加上前缀谁都有称王的机会。
AI 文生图,还能玩出什么新花样?
在这片群雄割据的红海,头部被 Midjourney、DALL·E、Stable Diffusion 等占据,其余还能让人眼前一亮的产品并不多。
然而,仍有黑马杀出:Ideogram,前 Google 工程师创立,硅谷 AI 大神投资,去年 8 月面世,2 月底发布了最新的模型。
Ideogram 的特别在于,擅长生成包含文本的图片,这恰恰是几大巨头都在改善的难题。
事实证明,从别人跌倒的地方爬起来,不失为一种弯道超车的方式。
能「画图」和「摄影」,但 AI 可能还是个「文盲」
让 AI 精准生成文字,向来是个痛点,哪怕生成的人物和风景像相机拍出来的,如同乱码的扭曲文字,瞬间让 AI 原形毕露。
Midjourney v5.2 生成的错误文字.
Ideogram 站出来表示,拒绝让 AI 继续做个「文盲」,不妨先从它开始。
接触 Ideogram 的门槛很低,打开网页(https://ideogram.ai/)登录就能用,界面看起来也清爽不复杂。
生成一张图片的步骤不多,在输入框填完提示词,再根据你想要的效果,勾选图片长宽比,以及照片、海报、3D 渲染等图片样式。
Ideogram 还考虑到了人类可能是提示词「苦手」,今年 2 月推出了「魔法提示」,这就像一个内置的 ChatGPT,帮你完善提示词,由 AI 拿捏同类的心思。
包含文本内容的图片有哪些?产品标志、T恤印花、书籍封面、电影海报......
我们先来个入门级考验,让几个人举起写着动物名称的指示牌,乍看文本对了,但脸和手不太正常,两者相互抵消,原来短板没有消失,只是转移了。
如果只让 Ideogram 写字,效果便惊艳得多。
让 AI 生成马斯克的经典句子「我宁愿乐观而错误,也不愿悲观而正确」,除了「W」有瑕疵,其他单词都写对了。
字体活泼了些,70 后的马斯克不知道能不能接受,但碰撞的黑白色,应该能让爆改小蓝鸟的他满意。
再拿经典谚语「只工作不玩耍,聪明的孩子也变傻」作为考题,虽然提示词强调了使用打印机字体,但 Ideogram 没能做到。看来光用提示词还不能定义字体,只能取个近似值
接着,命令 AI 为一家叫作「Coffee AI」的 AI 初创公司设计 logo。
主体是个电路图案的咖啡杯,右上角有个机器人咖啡师,公司名称用粗体大写字母写成,排版简单和克制,作为 logo 来看很直观,但总体来说在意料之中,很难让甲方心动拍板。
该给 AI 上难度了,句子更长,对设计的要求更高。
我要求 Ideogram 为儿童绘本设计内页,不仅要在醒目的位置写着「穿袜子的狐狸和戴礼帽的兔子」,底部还得标注「匿名」。
对于这两行文字,Ideogram 基本完成了任务,用上了手绘字体和粉笔涂鸦,甚至配了符合题意的插图,绘本的味道对了,但错误也很显眼,「in」这个单词有些问题,兔子长得像狐狸还和狐狸称兄道弟。
Ideogram 同样可以拿来电影海报,不妨拿前段时间爆火的、阮经天主演的电影《周处除三害》试试水。
我在提示词里杂糅了典故和电影,背景用到侠士剪影、海、山的意象,文字部分参考电影的英文名:猪、蛇和鸽
除了漏了一个「the」,最终的海报效果还不错,融合了古典的形象和现代的字体,鸽子涂鸦堪称点睛之笔,但总体更像西幻风,让人觉得陌生,很难联想到电影的剧情。
体验下来发现,其实 Ideogram 在文字上出错的概率不小,有时候生成两三次,才能得到一字不差的理想结果。
就算文本对了,人物的脸和手指经常翻车。
它可能还会加些花里胡哨的小动作,随机生成无意义且扭曲的文字,自己打脸自己。
这里的小字就糊成一团了.
但总体来说,Ideogram 让人惊喜,可以写对长句子,并且用上合适的字体和排版方式配合画面氛围,尽管目前还不能写中文,但如同鬼画符的几个字非常贴合衣服褶皱。
这四个字其实是「恭喜发财」.
瑕不掩瑜,Ideogram 的就业场景已经很多了。设计 logo、海报、T 恤图案时,它都可以作为灵感参考和创意辅助。
以前担心 AI 会「画画」和「摄影」,以后还怕 AI 有文化和会设计。
审美不输 Midjourney,还是个表情包神器
AI 的进步按天衡量,可能一觉醒来世界就发生了变化。虽然 Ideogram 表示自己的文本渲染能力最强,但对手们也不服输。
还未公开发布和开源的 Stable Diffusion 3 在 2 月官宣,改进了文字拼写能力。
Stable Diffusion 3 的拼写能力.
去年 12 月发布测试版的 Midjourney v6,是第一个具有可靠文本生成功能的 Midjourney 版本。
不过,它的要求也依然比较苛刻,除了必须把文字放在引号内,提示词最好解释文本的位置和书写方式,并用到「印刷」「写下」等关键词,一到两个词的文本生成效果最好。
Midjourney v6 的文本生成功能.
被追赶的 Ideogram 团队不慌,认为优势在我,Ideogram 仍然拥有更高的准确率,并且能够处理复杂的长句。
Ideogram 的系统评估也表明,Ideogram 1.0 渲染文本的准确性最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。
光说不练假把式,不如拿相同的提示词,让 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台竞技。
先来比较生成文本的准确度,我要求 AI 们绘制一幅浮世绘风格的日出插图,《飘》的经典台词「明天又是新的一天」放置在合适的位置,表现希望和新生。
这次,Ideogram 完胜,拼写准确,线条和色彩的设计也很大胆和出众。
向来差点艺术细胞的 DALL·E 竟然意外得有质感,文字基本对了但没完全对,画风更加抽象,Midjourney 不仅文字不准确,审美也落了下风,甚至没有认真听题。
左为 DALL·E,右为 Midjourney.
二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,借助「魔法提示」,AI 会发挥自己的想象力扩写提示词,配上文案,让图片有感情色彩。
我想看 AI 能不能生成打工猫表情包,于是输入了提示词:「画一个有趣的梗图,关于一只戴着领结和衬衫、在电脑前打字的泪流满面的猫,比喻人类打工的辛苦。」
Ideogram 发挥脑洞,自觉地加了句文案「猫也得工作」。
美中不足的是多了个「have」,前爪的指头数量也不对,看来 AI 不仅仅对人手犯难,拿猫爪也没辙。对比原版表情包,算是中规中矩,不能像「流泪猫猫头」一击即中。
左为网图,右为 Ideogram.
Midjourney 的猫严肃且优雅,仿佛是个已经财富自由的作家,看起来更像在拍杂志写真,但这鼠标不知道怎么回事。
左为 Midjourney,右为 DALL·E.
DALL·E 情感最为到位,画风虽然随意了些,但粗糙有粗糙的好处,仿佛不在一个图层的面条泪有内味了,真的很适合拿来当表情包用。
三是对复杂的长提示词的理解能力,尤其是提示词的元素是否齐全、出现的位置是否准确,所以我输入了比较啰嗦的提示词,规定了各个主体的位置。
Ideogram 在整体构图上表现得更好,提示词说到的几个要点都覆盖了,心形牌子、机器人、宇航员、气球和奖牌都有,虽然宇航员的手、奖牌的字等细节出了问题。
相比之下,Midjourney 更有艺术感,但要素缺失,又多了些有的没的装饰,更有自己的想法和个性,DALL·E 不仅要素缺失,细节出错,还不好看。
上为 Midjourney,下为 DALL·E.
所以抛开文字,光看出图质量,Ideogram 也不差,有时候对提示词里各个物体空间关系的还原,比其他 AI 还要更加准确。
从使用体验来说,Ideogram 的生成速度比 Midjourney 快,一般十几秒就能完成四张图片。
甚至根据行业的评估规则,人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面,更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。
哪怕你不满意 Ideogram 生成的图,把它的魔法提示词拿去用,在 Midjourney 和 DALL·E 的生成效果,可能也比自己手搓更好,不失为一种优化提示词的方式。
没人能在我的 BGM 里打败我,但同个提示词给不同 AI 使用,胜负还真不一定。
Google 工程师创办的明星公司,接地气的 AI 产品
Ideogram 成立于去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。
这又是一家明星公司,创始团队共 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。
谨小慎微的 Google 经常在推出产品时慢半拍,多次眼睁睁看着对手在全球声名大噪,聊天机器人被 ChatGPT 抢先,Imagen 也被 DALL·E 2 超车。
从工程师们的角度看,研究成果无法落地为面向消费者的应用并非好事。不少人选择了离开,亲自打造新的产品,尽量开放使用,先积累下用户规模和口碑。
Ideogram 一天 25 次提示词的免费额度,可能也是出于这样的考虑。
市场很看好这个产品,Ideogram 完成了硅谷风投 a16z 领投的 8000 万美元 A 轮融资,投资者中还有 AI 大神,包括 Google 首席科学家 Jeff Dean、OpenAI 创始团队成员 Andrej Karpathy。
其实在体验了很多 AI 产品之后,我暗暗有一个疑问:怎么定义一款产品的好用?
Ideogram 生成的 T 恤图案.
之前让我觉得好用的,是插件「沉浸式翻译」,它不像 Google 翻译覆盖原文,可以中英文对照,不仅是新闻网页,X 信息流、YouTube 字幕、PDF 文件,都能用上。
Ideogram 似乎也是这样接地气。一方面,它可以更加精准地生成用户所需的文字内容,并适配各种风格的图片。另一方面,它也能无中生有,为图片配上契合的文字,比如表情包。
虽然 Ideogram 生成的结果很多也不能拿来就用,但至少基本符合提示词要求,文字大多可读。
我也在体验中发现, Ideogram 的写实类图片一般,但涂鸦、插图、绘画方面不错,艺术天赋向 Midjourney 看齐。
Ideogram 生成的涂鸦艺术插图.
Ideogram 的官网还有各种作品的热度排行榜。打开网站的瞬间,你仿佛误入了一个 ins 风的图片社区,上面的提示词也都可以学习。
当 AI 工具兼具了创意、便利和分享,就很容易让人上头,具体的表现是,一天的 25 次提示词很快用完,这焦急的感觉,和等待 Suno 的积分更新差不多。
如果是每月 7 美元或者 16 美元的会员,除了更多生成次数,Ideogram 还提供了图像上传和编辑器的功能。
图像上传指的是,用户上传自己的图片,然后通过 Remix 功能再创作。
左为原图,右为输出.
编辑器除了裁剪、缩放等常规功能,还有一个很有意思的绘图工具,从一幅抽象的图画生成图片。人类的画工粗糙勾勒各个元素的形状、构图、颜色等,AI 负责化腐朽为神奇,有些神笔马良的既视感。
Ideogram 能从血雨腥风里杀出,好用当然是最重要的,同时它的定位也很准确。
如果美学是最重要的标准,那么 Midjourney 一骑绝尘。虽然 DALL·E 的水平时好时坏,但内置于 ChatGPT 调用方便,开源的 Stable Diffusion 则带来了自由。
单论用户规模,Ideogram 可能哪个都打不过,但它的长板做得很好,应当也能收获自己稳固的受众。
至少免费可用的 AI 图像生成器里面,Ideogram 的整体质量领先,网页使用方便,提供免费额度,文本渲染强大,魔法提示功能和创作者社区提供创意和灵感。
文生图模型们还远非完美,仍在努力地还原物理世界,或者向画家和设计师看齐。更多的 Ideogram,或许仍能找到自己的一席之地。
这也正是 AI 竞争的残酷和魅力所在,不知道谁能笑到最后,但永远有新的对手瞄准阿喀琉斯之踵加入。

小米SU7正式发布!21.59万起,雷军造车不看友商脸色


苹果搭载大模型的 Siri,可能和你想的不太一样

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2024高考人数突破1300万,华侨生联考人数破万,弯道超车要趁早AI早知道|科大讯飞星火认知大模型 V3.5发布;Midjourney V6动漫微调模型上线Discord 使用单台服务器服务于 100 万在线 MidJourney 用户留美学生暑假怎么过?弯道超车逆袭的机会来啦!目标G5,IGCSE阶段“弯道超车”,提前参加BPHO R1?附赠金奖秘籍!google 不删假的客户bad review国内家长都在找的日本定制夏令营终于来了!弯道超车就在这个暑假Costco本周优惠:TCL 75英寸QLED 4K Google TV智能电视,$1349.99,省$1500!AI 鲜测|2024 年谁还用手画原画啊!直接 Midjourney 生成就行了5次不出庭, google 杀妻男能够逍遥法外吗? 听专业律师怎么说“平替版Midjourney”,上线1年超700万用户,生成图片超7亿张团丨假期弯道超车秘籍,全给你们盘点好了!2024华侨生联考报名注意事项指南!助力弯道超车,低分上名校【名企上岸故事】一年OPT该如何“弯道超车”上岸?快来get身份求职双管齐下的好帮手之留美计划!青少年精神科门诊量暴增,寒假里,孩子最需要的不是“弯道超车”,而是……意外之喜,与最佳留学生异地相聚Suno AI:音乐生成迎来MidJourney时刻,Suno能否挑战Spotify?市区West Loop房源WL05 | 不收中介费/距离Google500米/UIC750米/2b$32xx起苹果Vision Pro硬件大佬被挖角,Midjourney布局VR头显?未来将发布AI生成3D世界引擎《藏品故事》 华荣堂制Google Flight 买票的时候推荐的这些中介都靠谱吗?二次元版Midjourney重磅升级V6!动漫风人物超逼真生成,网友上手效果令人疯狂AI早知道|Midjourney推出新功能Room;百度文库上线智能漫画功能Wells Fargo Autograph Journey 信用卡【3月9日实体店上线,5x 酒店,4x 航空,60k开卡奖励】打败 Midjourney,这个异军突起的 AI 产品凭什么?| 附免费试用链接芭芭拉跟安姬拉Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3弯道超车速白套餐,用1个月白到透明!黄仁勋每天都用的 AI 产品,来自 Google,颠覆 Google成为投资新手的 “弯道超车指南”赢麻了!262枚藤校Offer的通用申请逻辑!暑期逆袭攻略,弯道超车!Google发布最强开源大模型Gemma/苹果OLED产品路线图曝光/小米汽车价格定了?高管辟谣Google CloudAI 5年工作体验7034 血壮山河之枣宜会战 “扑朔迷离”南瓜店 11是怎样的自拍功能,让 Google 砸千万买下广告位?| Feel Good 周报请大家推荐手机:Google Pixel, I2024 留学生如何提高求职上岸率?暑假做这些事情,才能在校招中“弯道超车”!Google Fi +Pixel手机 回国怎么用看啊,还是这个人永久激活 GPT4.0 和Midjourney !无限使用!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。