Midjourney 进军硬件,曾被曝挖角苹果 Vision Pro 工程师 | Hunt Good 周报公众号新闻2024-06-02 05:06欢迎收看最新一期的 Hunt Good 周报!在本期内容你会看到:6 条新鲜资讯4 个有用工具1 个有趣案例3 个鲜明观点Hunt for News|先进头条😍 Midjourney 宣布进军硬件本周,Midjourney 创始人 David Holz 在回复网友的帖子时宣称,Midjourney 目前已成立新的硬件团队。早在今年 2 月份,有消息称,Midjourney 从苹果挖来 Vision Pro 工程师担任硬件主管。当时,永远在吃瓜一线的英伟达科学家 Jim Fan 还推测,Midjourney 可能在考虑为 AR 和 VR 创建完全由计算生成的世界,这是基于他们在文本转换为 3D 模型方面的工作。在 NVIDIA,数据驱动的模拟是一个备受关注的领域,这也正是我所热衷的。祝贺 Vision Pro 项目的工程师们开启了新的征程!我非常期待看到 Midjourney 将会带来什么样的创新。🔗 https://x.com/DavidSHolz/status/1795843078160536052?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-news-empire-grows👀 a16z 发布最新 AI 语音 Agent 图谱知名风险投资公司近日发布了一篇关于语音 Agents 的报告。报告中提出,我们正在从 1.0 时代的 AI 语音(电话菜单系统)转向 2.0 时代的 AI 语音(基于大语言模型的系统)。2.0 时代的公司在过去六个月内迅速崛起。虽然 1.0 时代的公司目前可能更为准确,但从长远来看,2.0 方法在可扩展性和准确性方面具有更大的潜力。很难有一个通用的模型或平台能适用于所有类型的企业语音代理。不同垂直领域之间存在一些关键差异:(1)呼叫类型、语气和结构;(2)集成和流程;(3)市场策略(GTM)和「杀手级功能」。🔗 https://a16z.com/ai-voice-agents/?continueFlag=20556f922fd216833c397232a811a38b👏 OpenAI 宣布 GPT-4o 多模态能力向所有用户免费开放OpenAI 在近日 X 平台宣布,GPT-4o 多模态能力向所有用户免费开放。不过,在使用次数上官方没有更新公告,预计还是会有一定次数限制。上个月,OpenAI 举办发布会,带来了 GPT-4o 。该模型打通了文本、图片、视频和语音输入,无需中间转换,互相之间就可以直接生成。当时,OpenAI 宣布向 ChatGPT Plus 和 Team 用户推出 GPT-4o,很快就会向企业用户推出。同时,也向所有人开放 GPT-4o 多模态能力,但有使用次数限制。值得指出的是,由于免费用户获得了部分原本需要付费才能使用的功能,这也引起了一些付费用户的不满。🔗 https://x.com/OpenAI/status/1795900306490044479🩻 阿里 AI 亮相联合国,癌症筛查技术将全球推广AI 正在开启一个全新的数字健康时代。5 月 31 日,在联合国召开的 AI for Good 全球峰会上,阿里巴巴与世卫组织(WHO)数字健康合作中心达成战略合作,向全球推广达摩院 AI 癌症筛查技术。在国内,达摩院AI癌症早筛技术已经为超过 600 万人次提供服务,覆盖胰腺癌、食管癌、肠癌、胃癌、肝肿瘤等病症的筛查,国际上已经与安提瓜和巴布达卫生部达成战略合作。本次签约后,世卫组织数字健康国际合作中心将从渠道、市场、落地、技术、标准等方面提供支持。全球更多医疗资源不均衡的发展中国家和地区将共享这项前沿成果。🔗 https://mp.weixin.qq.com/s/B2vl9o6etnXttT0fJFX4Sg💰 xAI 获 60 亿美元融资,马斯克拟打造大型超算近日,据 The Information 报道,马斯克在最新投资者演讲中透露,其 AI 初创公司 xAI 计划部署高达 10 万个定制芯片,以训练和运行下一代对话 AI 机器人 Grok。马斯克将这些芯片集成至一台超级计算机,称之为「算力超级工厂」,其规模预计为现有最大 GPU 集群的 4 倍。他期望在 2025 年秋季前完成超级计算机的部署,并亲自监督项目进度。在本周巴黎 VivaTech 大会上,马斯克表示 xAI 作为一家新兴公司,Grok 仍需不断进化,以期达到与 Google Deepmind 和 OpenAI 相竞争的水平,预计年底有望实现。此外, xAI 本周宣布以超过 240 亿美元估值获得 60 亿美元 B 轮融资。至此,国外大模型在规模上形成包括 OpenAI、Google、Anthropic、Meta 和 xAI 等多巨头。🔗 https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute🎬 由 Sora 制作的短片将于电影节首映据外媒 The Holleywood Reporter 报道, Tribeca Festival (翠贝卡电影节)将放映五部采用 OpenAI Sora 技术制作的短片。这是 Sora 制作的电影首次在电影节上展示,影片将于 6 月 15 日放映,之后将与电影制作人进行对谈。OpenAI 首席运营官 Brad Lightcap 表示,很高兴看到这些电影制作人如何利用 Sora 发挥他们的创造力,他们的作品能在翠贝卡电影节首映,OpenAI 感到非常荣幸。我们期待他们的短片,同时也迫切想要知道如何让 Sora 成为所有创意人士更优秀的工具。🔗 https://www.hollywoodreporter.com/business/business-news/tribeca-festival-short-films-made-openai-1235912280/Hunt for Tools|先进工具🎶 Suno 3.5 版本模型向所有人开放Suno AI 音乐创作平台最新推出的 3.5 版本现已向所有用户开放。现在,用户可以一次性生成完整的 4 分钟歌曲,只需提供基本的主题和选定偏好的音乐风格,Suno 便能够自动生成一首包含完整曲目。对于希望创作更长曲目的用户,平台还支持将歌曲长度扩展至最多 2 分钟。此外,Suno 对歌曲的整体架构和人声部分进行了进一步的优化,让作品更加和谐流畅。🔗 https://x.com/suno\_ai\_/status/1796273804991156326💥 腾讯推出 AI 助手App「腾讯元宝」5 月 30 日,基于混元大模型的 App「腾讯元宝」正式上线,目前应用商店已经可以下载。针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。面向日常生活场景,元宝的玩法也更加丰富,提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。腾讯广泛的应用场景,也进一步反哺了大模型能力的提升。更多具体信息,欢迎回看 APPSO 此前的体验文章 👇体验完腾讯最新的 AI 应用「元宝」,我发现了其他 AI 助手都没有的一个惊喜功能🔗 https://mp.weixin.qq.com/s/KCjb6oWV0DA-fCwKOZTHRA🤯 Perplexity 推出 AI 版维基百科本周,Perplexity AI 推出了一项创新功能「Pages」,它能够根据网页搜索结果自动编排成一份格式规范、内容丰富的文档。Perplexity 宣称,其算法能够构建包含多个章节的详尽文章。用户可以要求 AI 工具对任何部分进行重写或重新排版,甚至可以删除它们。并且,该功能还可以协助用户搜索并嵌入相关的多媒体素材,例如图片和视频。创始人表示:「Perplexity 致力于满足全球的好奇心。我们借鉴了维基百科的模式,并增添了引用功能。我们激动地宣布,通过推出 Pages,我们正在将这一理念进一步发展,这可以被视为一种『AI 版的维基百科』。」🔗 https://www.perplexity.ai/hub/faq/what-is-perplexity-pages🎨 快手上线自研文生图大模型「可图」近日,快手自研文生图大模型「可图」已于近日正式对外开放。「可图」大模型目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过「可图」微信小程序和网页版使用。据界面新闻援引知情人士消息,快手于去年年初组建了大模型研发团队,并依托其在 AIGC 算法和大规模语言模型方面的技术积累进行大模型开发和训练。报道称,「可图」大模型的参数规模达十亿级,数据引入了强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。🔗 https://mp.weixin.qq.com/s/viyCP2-aGgMyXGwYiEPsOQHunt for Fun|先行🎙️ ChatTTS 文本转语音项目爆火出圈最近,一个名为 ChatTTS 文本转语音项目爆火出圈,引起了广泛关注。ChatTTS 最大模型是基于超过 10 万小时的中英文数据训练而成的,目前仅支持中文和英文,其具备预测和控制语音的细微韵律特征的能力,包括笑声、停顿和插话等。用户还可以对语音进行更细致的调整,例如调整语速、音调以及表达的情感等。而在 HuggingFace 平台开源的版本则是基于 4 万小时训练数据,且未经过进一步的特定领域训练(SFT)。附上体验地址:https://chattts.com/🔗 https://github.com/2noise/ChatTTSHunt for insights|先知🤖 Netflix CEO:抢你饭碗的不是 AI,而是熟练使用 AI 的人网飞(Netflix)CEO Ted Sarandos 近日在接受《纽约时报》采访时表示,AI 不会抢走你的饭碗,但熟练掌握 AI 技能的人才会抢走你的饭碗。在采访中,他巧妙地以家庭录像机的转变作为切入点,举例称:还记得大家是如何对抗家庭录像机的吗?几十年来,电影制片厂都不愿意将电影授权给电视台播放,因此,娱乐业的每一次技术进步都会引发争论,但最终都会促进业务增长。我不知道这次是否有所不同。25 年前,当我们开始邮寄 DVD 时,我们进入了一个转型期的行业。我们知道,实体媒体不会是未来。我认为当今创意领域使用 AI 是水到渠成的事情。编剧、导演、剪辑师将把人工智能作为一种工具,更好地完成他们的工作,更高效地完成任务。🔗 https://www.nytimes.com/2024/05/25/magazine/ted-sarandos-netflix-interview.html💰 OpenAI CTO 称生成式 AI 带来的经济影响才刚刚开始据彭博社报道,OpenAI 首席技术官 Mira Murati 表示,生成式 AI 的经济影响才刚刚开始。Murati 通过视频在新加坡的 Asia Tech X 会议上指出,OpenAI 最新的 GPT-4o 模型可帮助用户生成文本、演示文稿和视频等内容,使用起来变得更加直观。这使得人们越来越多地使用人工智能工具完成编码、写作和行政工作等任务。她声称,「我们还没有完全意识到,这将对企业和工作产生的影响,因为它才刚刚开始。但我们可以看到的是,在很短的时间内,这些人工智能系统已经作为合作者进入了劳动力市场」。🔗 https://www.bloomberg.com/news/articles/2024-05-30/openai-cto-says-generative-ai-s-economic-impact-only-starting🧠 YC 创始人:Altman 当年不是被解雇的,他需要全职管理 OpenAI针对网传 OpenAI CEO Sam Altman 此前被 YC 解雇的报道,YC 创始人 Paul Graham 本周在社交平台 X 上否认了这一说法。Graham 说:「数年来,Altman 同时运营着 Y Combinator 和 OpenAI。但当 OpenAI 宣布将设立一个营利性子公司,Altman 将担任 CEO 时,我们就和他说,如果要全职管理 OpenAI,我们可能要寻找其他人来管理 Y Combinator,他也同意了。」Graham 还补充道:「如果他说他要找其他人来担任 OpenAI 的 CEO,这样他就可以 100% 专注于 Y Combinator,我们也不会介意。我们不想让他离开,没办法而已。」🔗 https://x.com/paulg/status/1796107666265108940彩蛋时间《有根之木》作者:@sunouku工具:Midjourney链接:https://x.com/sunouku/status/1794120242006036522微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章