Redian新闻
>
Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越

Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越

公众号新闻

机器之能报道

编辑:SIA


一直以来,Midjourney  稳坐 AIGC 文生图的王座,少有威胁,直到这家公司的出现。


8 月 23 日,生成式人工智能创业公司 Ideogram AI 正式官宣:「我们正在开发最先进的人工智能工具,使创意表达变得更容易、更有趣、更高效。」官网写道。


团队核心成员也是谷歌大脑 Imagen 团队主要成员, Ideogram AI 也被认为试图将 Imagen 发扬光大:

Mohammad Norouzi(CEO )、Jonathan Ho (联合创始人)、 William Chan 和 Chitwan Saharia 都是谷歌文本至图像 AI 模型 Imagen 的核心作者,相关论文曾入围 NeurIPS 2022 Outstanding paper 。
Imagen 使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型( diffusion model )会将这些嵌入式的向量转换成 1024x1024 像素的图片。
由于概念上简单且易于训练,还能产生惊人的强大效果,Imagen 不仅重塑了大家对扩散模型的认知,也开辟出一条 DALL-E 2 以外的文生图新范式。
后来,Meta 宣布其文本视频 AI 模型 Make-A-Video 之后,谷歌又发布了视频模型 Imagen Video(看看,名字都差不多),基于级联视频扩散模型来生成高清视频
Imagen Video 继承了此前 Imagen 文本生成图像系统的准确描绘文字的功能,以此为基础,仅靠简单描述产生各种创意动画。

官网显示的当前团队成员。


「我们的创始团队他们曾在谷歌大脑、UC 伯克利分校、卡内基梅隆大学和多伦多大学领导过变革性人工智能项目。」官网显示。

Mohammad Norouzi 创业之前在谷歌大脑工作了 7 年,在谷歌的最后级别是高级研究科学家,工作重点是生成模型。Ideogram AI 在人工智能方面的基础工作积累当中,他的涉猎范围最广,包括 ImagenImagen Video 、用于语音合成的 WaveGrad 神经机器翻译、用于学习视觉表示的对比学习等。合作的团队成员也最多。
联合创始人 Jonathan Ho ,UC 伯克利博士毕业,在扩散模型方面做了非常重要的工作,以至于他的离开被业内人士视为谷歌的重大损失。


2022 年 4 月,谷歌提出了视频扩散模型(Video Diffusion Models),首次报告了扩散模型根据文本生成视频的结果(效果不俗)。Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。
Jonathan Ho 也是扩散模型奠基作品之一、提出去噪扩散模型 Denoising Diffusion Probabilistic Models  一作。(有趣的是,合著者之一 Pieter Abbeel 也是这家公司的投资人)。
Chitwan Saharia  在谷歌工作时,主要负责领导 image-to-image 扩散模型的工作。除了扩散模型方面的工作,Willian chan 在谷歌工作时从事过神经语音识别研究,与 Mohammad Norouzi 合作研究用于语音合成的 WaveGrad 。
或许是因为谷歌囿于安全、伦理方面的顾虑,需要再做进一步的规范,来选择是否开源 Imagen 和 Imagen Video ,这些中坚力量决定离开创业。
「我们正在突破人工智能的极限,重点关注创造力以及信任和安全的高标准。」官宣最后写道。

官网截图


当天,公司还宣布已筹集由 a16z 和 Index Ventures 领投的总计 1650 万美元的种子融资。几位如雷贯耳的行业中坚力量也参与了本轮投资。

例如,Node.js 之父 Ryan Dahl 、Uber 首席科学家 Raquel Urtasun、Jeff Dean、Andrej Karpathy、 Pieter Abbeel 、GitHub 创始人 Tom Preston-Werner 。
同时,公司也宣布迎来 v0.1 的公开测试版。我们也简单体验了一下。目前仅提供文字生成图片的服务,操作很简单,仅需输入你的需求,然后选择生成图像的风格和比例即可。
系统理解能力还是不错的,特别是对图片中需要生成的文字的理解。缺点是响应速度比较慢,还不能理解中文指令,构图的空间理解也有待提升。

操作页面


Ponyo diving in the milk with dorphin AI 似乎无法理解命令里的 milk」,而是按照自己的理解(sea)给出了画面。



我们换了一个输入:「 Elon Musk take hands with Lisa (blackpink )in a Tesla car,(  cinematic )」

基本正确。只是两个人的脸蛋都有点问题,这是 Lisa?


让马斯克穿越,尝试一下汉服风格,结果还真有点大侠的感觉。


「 Elon Musk with long hair in chinese traditional clothing, photo



「 Blackpink Jennie but very fat, photo。」不错,原来长胖了后大概是这个样子。


再看看一些推特网友的使用结果。即使在生成的图片里还需要生成一些文字,系统也可以做到。


例如,「An adorable minion holding a sign that says 『It's over, MidJourney』, spelled exactly, 3d render, typography」

推友表示,虽然系统并不总是能够正确拼写,但成功率还是不错的。

A cute fluffy pikachu standing on a big fluffy moon, holding a neon sign says 『to the moon』 , 3d render」


最近上映的电影中,《芭比》和《奥本海默》都比较引发关注,推友要求生成有关「巴本海默(barbenheimer)」的电影画报设计,风格上参考芭比和核武器。效果如下。

虽然这些电影信息很可能出现在训练截止日期之后,但系统还是很好地处理了这个合成词。另外,老问题,人物的脸还不够好。

「Word  『surrealspelled and rendered in a Dali-style surreal painting, typography」

「 a melting snowman in a volcano 


Word  『NVIDIA rendered in GPU chip circuit typography, cyperpunk, sci-fi



beautiful girl in Dali's painting, with a captionStanford, typography 



一只时髦的布娃娃猫,戴着古驰太阳镜,举着一个写着周日快乐的牌子,黑色背景,海报



场景中有 4 个物体。一个红色的金字塔位于一个蓝色的立方体上面。一个黄色球体位于这个蓝色立方体的下方。一个大理石六边形位于金字塔的左边,蓝色立方体的顶部。


看来,系统目前对构图和空间的理解还不到位。



其他首页上的作品展示。



食用链接:https://ideogram.ai/


如何快速掌握大模型技术与实践?

机器之心主办的「Llama 2大模型算法与应用实践」论坛,拆解以 Llama 2 为代表的大模型算法和应用,帮助你系统学习大模型算法理论,并上手搭建一个专属大模型,在实践中巩固学习成果。

你将了解:大模型技术细节、行业落地案例、多模态改造、量化及低成本微调……

想要参加但还在犹豫?机器之心限时开放「拼团」模式,让更多开发者顺利组团,享受优惠价格。赶快扫描下图二维码报名加入!

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
比 Midjourney 还聪明,这个爆火 AI 神器只要听歌就能画图!|附体验方式GPT-4大杀器谷歌Gemini来袭!26位研发大佬名单曝出,祭出类Midjourney生图能力号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney「GPT-4.5」来了!地表最强Code Interpreter与Midjourney联动,5分做出大片|附保姆级攻略开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输MidjourneyMidjourney V6来袭!性能对标DALL·E 3,争夺地表最强作图AI称号Midjourney最新“扩图”玩法:1小时直接出高清大片!Sam Altman:大家如此喜爱Code Interpreter!这是结合Midjourney的神奇用例导演消失了!Midjourney+妙鸭相机+Gen2新玩法:10块钱创造马斯克宇宙,一键图生视频反向Midjourney上线!数字艺术家魂牵乔布斯,一张照片进入博尔赫斯精神世界礼来参投,种子轮融资2600万美元,RNA编辑初创瞄准眼科遗传病,可一次注射靶向数千种突变周末随笔-灾后重建的一天Midjourney CEO亮相WAIC大会:AI将是下代引擎,公司名源于庄子六月驕傲出櫃桃夭你每天用来打卡的钉钉,居然藏着「ChatGPT」「Midjourney」和「Notion」Midjourney一周年!从V1到V5,画出的美女有何不同?Midjourney、Stable Diffusion 齐更新,最强 AI 画图工具大战|Hunt Good 周报Midjourney更新「摊大饼」功能,瞬间生成「清明上河图」,特写无限平移成全景照【首发】氧富智能医疗完成首轮种子轮融资,黎曼猜想担任本轮融资独家财务顾问电影预告一键生成,Midjourney+Gen-2生成视频刷屏了双林奇案录第三部之川黔连环案: 第三十三节对话Midjourney创始人:图片只是第一步,AI将彻底改变学习、创意和组织 | GGViewMidjourney5.2版本开始测试,用文字“画”出图片变得更加简单还记得让马斯克一键「穿越」的利器吗?现在面向所有人开放!免费!生成式3D:等待下一个“Midjourney时刻”全AI生成「芭本海默」病毒式疯转!Midjourney、Gen-2版联手拍成,震撼堪比好莱坞原片爆火视频竟不是真人,逼真程度不输Midjourney,创始人数字人亲自上GPT-4.5来了!地表最强Code Interpreter与Midjourney联动,5分做出大片 | 附保姆级攻略春雨染过的和服国产Midjourney震撼登场!阿里通义万相画出「海底星空」,自研Composer架构立功AI 作画神器 Midjourney 又更新了海外买量游戏大佬分享AIGC利弊:Midjourney做游戏美术的心得Midjourney画出七夕神图,震惊网友!局部重绘功能上新,马斯克和小扎对战八角笼(多图预警)Midjourney整大活!1秒生成美国各州建筑图+人物图,这很难评
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。