Midjourney 进军硬件，曾被曝挖角苹果 Vision Pro 工程师 | Hunt Good 周报

公众号新闻

2024-06-02 05:06

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

6 条新鲜资讯
4 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News｜先进头条

😍 Midjourney 宣布进军硬件

本周，Midjourney 创始人 David Holz 在回复网友的帖子时宣称，Midjourney 目前已成立新的硬件团队。

早在今年 2 月份，有消息称，Midjourney 从苹果挖来 Vision Pro 工程师担任硬件主管。

当时，永远在吃瓜一线的英伟达科学家 Jim Fan 还推测，Midjourney 可能在考虑为 AR 和 VR 创建完全由计算生成的世界，这是基于他们在文本转换为 3D 模型方面的工作。

在 NVIDIA，数据驱动的模拟是一个备受关注的领域，这也正是我所热衷的。

祝贺 Vision Pro 项目的工程师们开启了新的征程！我非常期待看到 Midjourney 将会带来什么样的创新。

🔗 https://x.com/DavidSHolz/status/1795843078160536052?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-news-empire-grows

👀 a16z 发布最新 AI 语音 Agent 图谱

知名风险投资公司近日发布了一篇关于语音 Agents 的报告。

报告中提出，我们正在从 1.0 时代的 AI 语音（电话菜单系统）转向 2.0 时代的 AI 语音（基于大语言模型的系统）。

2.0 时代的公司在过去六个月内迅速崛起。虽然 1.0 时代的公司目前可能更为准确，但从长远来看，2.0 方法在可扩展性和准确性方面具有更大的潜力。

很难有一个通用的模型或平台能适用于所有类型的企业语音代理。不同垂直领域之间存在一些关键差异：（1）呼叫类型、语气和结构；（2）集成和流程；（3）市场策略（GTM）和「杀手级功能」。

🔗 https://a16z.com/ai-voice-agents/?continueFlag=20556f922fd216833c397232a811a38b

👏 OpenAI 宣布 GPT-4o 多模态能力向所有用户免费开放

OpenAI 在近日 X 平台宣布，GPT-4o 多模态能力向所有用户免费开放。不过，在使用次数上官方没有更新公告，预计还是会有一定次数限制。

上个月，OpenAI 举办发布会，带来了 GPT-4o 。该模型打通了文本、图片、视频和语音输入，无需中间转换，互相之间就可以直接生成。

当时，OpenAI 宣布向 ChatGPT Plus 和 Team 用户推出 GPT-4o，很快就会向企业用户推出。同时，也向所有人开放 GPT-4o 多模态能力，但有使用次数限制。

值得指出的是，由于免费用户获得了部分原本需要付费才能使用的功能，这也引起了一些付费用户的不满。

🔗 https://x.com/OpenAI/status/1795900306490044479

🩻 阿里 AI 亮相联合国，癌症筛查技术将全球推广

AI 正在开启一个全新的数字健康时代。

5 月 31 日，在联合国召开的 AI for Good 全球峰会上，阿里巴巴与世卫组织（WHO）数字健康合作中心达成战略合作，向全球推广达摩院 AI 癌症筛查技术。

在国内，达摩院AI癌症早筛技术已经为超过 600 万人次提供服务，覆盖胰腺癌、食管癌、肠癌、胃癌、肝肿瘤等病症的筛查，国际上已经与安提瓜和巴布达卫生部达成战略合作。

本次签约后，世卫组织数字健康国际合作中心将从渠道、市场、落地、技术、标准等方面提供支持。全球更多医疗资源不均衡的发展中国家和地区将共享这项前沿成果。

🔗 https://mp.weixin.qq.com/s/B2vl9o6etnXttT0fJFX4Sg

💰 xAI 获 60 亿美元融资，马斯克拟打造大型超算

近日，据 The Information 报道，马斯克在最新投资者演讲中透露，其 AI 初创公司 xAI 计划部署高达 10 万个定制芯片，以训练和运行下一代对话 AI 机器人 Grok。

马斯克将这些芯片集成至一台超级计算机，称之为「算力超级工厂」，其规模预计为现有最大 GPU 集群的 4 倍。他期望在 2025 年秋季前完成超级计算机的部署，并亲自监督项目进度。

在本周巴黎 VivaTech 大会上，马斯克表示 xAI 作为一家新兴公司，Grok 仍需不断进化，以期达到与 Google Deepmind 和 OpenAI 相竞争的水平，预计年底有望实现。

此外， xAI 本周宣布以超过 240 亿美元估值获得 60 亿美元 B 轮融资。至此，国外大模型在规模上形成包括 OpenAI、Google、Anthropic、Meta 和 xAI 等多巨头。

🔗 https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute

🎬 由 Sora 制作的短片将于电影节首映

据外媒 The Holleywood Reporter 报道， Tribeca Festival (翠贝卡电影节)将放映五部采用 OpenAI Sora 技术制作的短片。

这是 Sora 制作的电影首次在电影节上展示，影片将于 6 月 15 日放映，之后将与电影制作人进行对谈。

OpenAI 首席运营官 Brad Lightcap 表示，很高兴看到这些电影制作人如何利用 Sora 发挥他们的创造力，他们的作品能在翠贝卡电影节首映，OpenAI 感到非常荣幸。

我们期待他们的短片，同时也迫切想要知道如何让 Sora 成为所有创意人士更优秀的工具。

🔗 https://www.hollywoodreporter.com/business/business-news/tribeca-festival-short-films-made-openai-1235912280/

Hunt for Tools｜先进工具

🎶 Suno 3.5 版本模型向所有人开放

Suno AI 音乐创作平台最新推出的 3.5 版本现已向所有用户开放。

现在，用户可以一次性生成完整的 4 分钟歌曲，只需提供基本的主题和选定偏好的音乐风格，Suno 便能够自动生成一首包含完整曲目。

对于希望创作更长曲目的用户，平台还支持将歌曲长度扩展至最多 2 分钟。此外，Suno 对歌曲的整体架构和人声部分进行了进一步的优化，让作品更加和谐流畅。

🔗 https://x.com/suno\_ai\_/status/1796273804991156326

💥 腾讯推出 AI 助手App「腾讯元宝」

5 月 30 日，基于混元大模型的 App「腾讯元宝」正式上线，目前应用商店已经可以下载。

针对效率场景的三大核心需求：信息获取、处理和生产，腾讯元宝均进行了产品化探索。面向日常生活场景，元宝的玩法也更加丰富，提供了多个特色 AI 应用，并新增了创建个人智能体等玩法。

目前，腾讯内部有超 600 个业务及场景都已经接入腾讯混元，腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等，都已经基于混元实现了智能化升级。腾讯广泛的应用场景，也进一步反哺了大模型能力的提升。

更多具体信息，欢迎回看 APPSO 此前的体验文章 👇

🔗 https://mp.weixin.qq.com/s/KCjb6oWV0DA-fCwKOZTHRA

🤯 Perplexity 推出 AI 版维基百科

本周，Perplexity AI 推出了一项创新功能「Pages」，它能够根据网页搜索结果自动编排成一份格式规范、内容丰富的文档。

Perplexity 宣称，其算法能够构建包含多个章节的详尽文章。用户可以要求 AI 工具对任何部分进行重写或重新排版，甚至可以删除它们。

并且，该功能还可以协助用户搜索并嵌入相关的多媒体素材，例如图片和视频。

创始人表示：「Perplexity 致力于满足全球的好奇心。我们借鉴了维基百科的模式，并增添了引用功能。我们激动地宣布，通过推出 Pages，我们正在将这一理念进一步发展，这可以被视为一种『AI 版的维基百科』。」

🔗 https://www.perplexity.ai/hub/faq/what-is-perplexity-pages

🎨 快手上线自研文生图大模型「可图」

近日，快手自研文生图大模型「可图」已于近日正式对外开放。

「可图」大模型目前支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。用户可通过「可图」微信小程序和网页版使用。

据界面新闻援引知情人士消息，快手于去年年初组建了大模型研发团队，并依托其在 AIGC 算法和大规模语言模型方面的技术积累进行大模型开发和训练。

报道称，「可图」大模型的参数规模达十亿级，数据引入了强化学习和奖励模型技术（RLHF），解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。

🔗 https://mp.weixin.qq.com/s/viyCP2-aGgMyXGwYiEPsOQ

Hunt for Fun｜先行

🎙️ ChatTTS 文本转语音项目爆火出圈

最近，一个名为 ChatTTS 文本转语音项目爆火出圈，引起了广泛关注。

ChatTTS 最大模型是基于超过 10 万小时的中英文数据训练而成的，目前仅支持中文和英文，其具备预测和控制语音的细微韵律特征的能力，包括笑声、停顿和插话等。

用户还可以对语音进行更细致的调整，例如调整语速、音调以及表达的情感等。

而在 HuggingFace 平台开源的版本则是基于 4 万小时训练数据，且未经过进一步的特定领域训练（SFT）。

附上体验地址：https://chattts.com/

🔗 https://github.com/2noise/ChatTTS

Hunt for insights｜先知

🤖 Netflix CEO：抢你饭碗的不是 AI，而是熟练使用 AI 的人

网飞（Netflix）CEO Ted Sarandos 近日在接受《纽约时报》采访时表示，AI 不会抢走你的饭碗，但熟练掌握 AI 技能的人才会抢走你的饭碗。

在采访中，他巧妙地以家庭录像机的转变作为切入点，举例称：

还记得大家是如何对抗家庭录像机的吗？几十年来，电影制片厂都不愿意将电影授权给电视台播放，因此，娱乐业的每一次技术进步都会引发争论，但最终都会促进业务增长。我不知道这次是否有所不同。

25 年前，当我们开始邮寄 DVD 时，我们进入了一个转型期的行业。我们知道，实体媒体不会是未来。

我认为当今创意领域使用 AI 是水到渠成的事情。编剧、导演、剪辑师将把人工智能作为一种工具，更好地完成他们的工作，更高效地完成任务。

🔗 https://www.nytimes.com/2024/05/25/magazine/ted-sarandos-netflix-interview.html

💰 OpenAI CTO 称生成式 AI 带来的经济影响才刚刚开始

据彭博社报道，OpenAI 首席技术官 Mira Murati 表示，生成式 AI 的经济影响才刚刚开始。

Murati 通过视频在新加坡的 Asia Tech X 会议上指出，OpenAI 最新的 GPT-4o 模型可帮助用户生成文本、演示文稿和视频等内容，使用起来变得更加直观。

这使得人们越来越多地使用人工智能工具完成编码、写作和行政工作等任务。

她声称，「我们还没有完全意识到，这将对企业和工作产生的影响，因为它才刚刚开始。但我们可以看到的是，在很短的时间内，这些人工智能系统已经作为合作者进入了劳动力市场」。

🔗 https://www.bloomberg.com/news/articles/2024-05-30/openai-cto-says-generative-ai-s-economic-impact-only-starting

🧠 YC 创始人：Altman 当年不是被解雇的，他需要全职管理 OpenAI

针对网传 OpenAI CEO Sam Altman 此前被 YC 解雇的报道，YC 创始人 Paul Graham 本周在社交平台 X 上否认了这一说法。

Graham 说：「数年来，Altman 同时运营着 Y Combinator 和 OpenAI。但当 OpenAI 宣布将设立一个营利性子公司，Altman 将担任 CEO 时，我们就和他说，如果要全职管理 OpenAI，我们可能要寻找其他人来管理 Y Combinator，他也同意了。」

Graham 还补充道：「如果他说他要找其他人来担任 OpenAI 的 CEO，这样他就可以 100% 专注于 Y Combinator，我们也不会介意。我们不想让他离开，没办法而已。」

🔗 https://x.com/paulg/status/1796107666265108940

彩蛋时间

《有根之木》

作者：@sunouku

工具：Midjourney

链接：https://x.com/sunouku/status/1794120242006036522

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章