AIGC科技企业“爱设计&AiPPT.cn”完成数千万元B1轮融资:本轮融资由A股上市公司视觉中国领投,星连资本和36 氪跟投,融资将用于人工智能技术,内容版权供应体系, 国内外用户增长和核心人才引入等方面。AI智算中心算力公司探索智造完成A轮融资:本轮融资由无锡云林产业发展投资基金投资,资金将主要用于研发投入及运营储备。颜创AI完成数千万pre-A轮融资:本轮投资机由AlphaX Partners Fund I, L.P.领投,SEVEN FUND跟投。颜创AI是基于人脸识别和大数据模型算法,研发AI人工智能形象分析检测工具,此次融资将主要用于研发和市场推广。
哈工大系科技公司推出若愚·九天机器人大脑,已完成多智能体验证:其中实现多模态大模型驱动下的群体智能是若愚·九天机器人大脑的一大突破。该大脑可集中控制多台机器人,目前已经通过无人厨房环境的技术方案验证,可应用到工业领域的复杂工序,商业领域的无人零售、甚至延展到消费领域。国产大模型登陆国产系统,百度文心一言上架统信应用商店:用户可通过统信应用商店一键下载、安装并使用文心一言。目前统信 UOS 桌面版发货量累计超过 600 万套,市占率持续保持第一。售价为6699元。该学习机号称能够“逼真还原课文情景”,支持“AI师生互动课”,自带“课后个性化练习”服务,同时支持“量身定制个性化学习计划”,“全科全学段随时答疑”,另有专属AI家庭教育指导师一对一进行学情诊断沟通。北京智谱领航科技有限公司成立,法定代表人为刘德兵,注册资本3000万人民币,由智谱AI关联公司北京智谱华章科技有限公司全资持股。经营范围含人工智能应用软件开发、数据处理和存储支持服务、人工智能理论与算法软件开发、大数据服务等。华信永道联合智谱AI发布“智道奇点”政务大模型,最先用于住房公积金业务办理:将主要应用于智联咨询、智引服务、智联慧办、智体直播四类政务服务场景,帮助政府部门实现降本、提质、增效。据介绍,智道奇点SagesrvGLM将首期聚焦于住房公积金领域的智能客服和边聊边办新服务模式,帮助公积金缴存职工或单位高质量、高效率解决咨询、办理、投诉等全业务场景的互动服务。第四范式一季度营收8.3亿元,同比增长28.5%:随业绩披露的核心产品行业大模型“先知AI平台5.0”迎来近十年第五次升级。据介绍,“先知AI平台5.0”相关业务同比增长84.8%,占集团总收入比例超60%。该平台可基于各行业场景的不同模态数据,构建行业大模型,极大拓展了行业大模型应用领域,为企业提供充足大模型供给。上海交大团队研制“导盲六足机器人”,1秒之内可响应:该机器人具有视觉环境感知功能,可自主导航至目的地、动态躲避障碍、识别红绿灯等。目前已进入实地测试阶段,由视障人士参与线下展示与功能测试,也将根据视障人士的实时反馈,对机器人持续研发、调试。通过后台建立完整的互联网服务体系,导盲机器人可以实现居家陪护、应急处理,带领盲人抵达更多地方等功能。百度沈抖谈大模型“价格战”,免费是为了降低企业试错成本:沈抖表示,“其实我们决定免费的原因特别朴素,就是希望大家别再天天拉表格比价格了,有这个时间,不如去卷场景、卷应用。现在成本更低了,大家创新的胆子可以更大一些、步子可以更快一些,把相关的场景都试一遍,快速验证。跑成功了,就快速复制。”他还称百度文心大模型已经拥有中国最大的产业落地规模,超过半数的央企正在使用百度智能云的技术和服务进行人工智能创新。为了加速行业大模型的落地,百度智能云推出“千帆·行业增强版”,目前已经在政务、交通、工业等行业落地。商汤徐冰称过去 10 年购买了超过 4 万个英伟达芯片:商汤目标是在 1 到 2 年内实现盈利。他认为一方面是因为国产芯片快速发展,另一方面此算力作为一种商品,其投资属性也相当显著。只要中国愿意在算力领域持续投入资金和资源,中美之间的算力差距就有机会逐渐缩小。壁仞科技张文笑称下次创业会选择不被美国制裁的餐饮业:与商汤、科大讯飞一同被列入美国商务部的“实体清单”的壁仞科技创始人张文表示,下一次创业他不想再从事AI行业,而是可能会选择进入餐饮业,一个不会被美国制裁的领域。他笑称:“我不知道(这个企业)对美国的麦当劳是不是有影响”。荣耀CEO赵明称不用刻意追求大模型,端侧AI“够用即可”:“未来大模型在云侧和端侧应用应该说是够用即可,不用刻意追求大模型(参数)。”赵明表示,如果用手机跑70亿参数的大模型,可能两个小时就没电了。所以,端侧 AI 是个人工具。荣耀希望用 AI 复刻经典的人像艺术和能力。今年一季度全球AI领域融资总额达1564亿,同比下降31.2%:
本季度融资交易当中,有53亿美元来自于 Anthropic、Mistral Al 和 xAl 的基础模型公司的大型交易。而截至2024年第二季度,xAl和Mistral Al 将延续大型融资交易趋势。另外,PitchBook的报告称,完成78个融资交易的 AI 企业记录中位估值中达到5500万美元。苹果今年将加大 M 系列处理器的产量,做自己的 AI 服务器,并在逐步开发更强大的芯片。不过目前这些芯片还没有针对大模型所需的计算完成优化,神经引擎结构带宽严重不足,需要加以改造,才能适配。Meta被曝使用Instagram等照片训练AI模型引发隐私争议:Meta 声称允许用户退出数据搜集模式,不将其数据用于 AI 模型训练。但之前已搜集的用户数据已经进入了大模型的预训练数据集中,很难进行特定删除。也就是说,之前已搜集的数据很可能仍保存在 AI 模型中。宝马工厂“机器狗”SpOTTO 上岗,可“嗅探”过热故障和压缩空气泄漏:SpOTTO 的职责是帮助发动机生产线顺利运转,拥有先进的视觉、热和声学传感器,检测车间内的各种问题。可以爬楼梯,能宝马的 Hams Hall 站点的数字孪生收集数据,未来还可能读取模拟控制。Google加码AI PC,为Chromebook系列设备添加AI功能:谷歌将把 Gemini 人工智能以及该公司其他设备上的 AI 功能引入 Chromebook Plus 笔记本电脑,其中包括华硕、惠普已经在售的机型,以及宏碁即将推出的新品。这些现机型都将支持谷歌的“帮助我写作”等新功能,以及使用生成式 AI 创建自定义壁纸的功能。谷歌相册的魔法编辑器(Magic Editor)也将在 Chromebook Plus 上可用。Opera与Google达成合作,将Gemini人工智能引入其浏览器:利用Gemini AI模型作为Opera Aria 浏览器 AI的一部分。Google云支持的主要功能包括图像生成和语音输出,以类似对话的方式朗读回复。Opera 在其浏览器中增加了许多AI功能,甚至允许在电脑上下载和使用本地运行的 LLM,允许访问来自 50 多个系列的 150 多个模型,包括 Meta 的 Llama 和 Google 的 Gemma。Indent是一家美国数据安全初创公司,其创始人宣布自己将加入OpenAI负责安全相关的工作,这家公司大概率将全部并入OpenAI,此前OpenAI CEO 奥特曼参与了Indent 560万美元的种子轮融资。OpenAI 成立监督委员会评估 AI 安全,并已开始训练新的 AI 模型:新成立的委员会将在 90 天内评估 OpenAI 技术的保障措施,并提交报告。同时OpenAI称他们已经开始训练一款全新的旗舰级人工智能模型,这一模型将超越并接替目前驱动其在线聊天机器人ChatGPT的GPT-4技术。微软 Phi-3-vision 基准测试,和Gemini 1.0 Pro 相当:Phi-3-vision是一款多模态小型语言模型,主打“视觉能力”,能够理解图文内容,用于本地 AI 场景,据称可以在移动平台上流畅高效运行。该模型参数量为 42 亿,上下文长度为 128k token。微软新论文表示该模型和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。SignLLM模型能够将输入的文本或提示转化为相应的手语手势视频,引入了世界上首个多语言手语数据集Prompt2Sign,开发了多种生成手语的模型,可生成包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语。苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误:该技术的核心在于使用文本转语音系统创建音频,并将其输入ASR系统,通过这种方式产生了嘈杂的假设,与原始文本进行配对,从而训练DLM。DLM在LibriSpeech上实现了1.5%的字错误率,证明了其卓越性能。ComfyUI节点AnyNode,要啥功能让AI帮你编写:AnyNode是ComfyUI中的新节点,允许用户通过输入提示词来创建具有特定功能的节点,可以根据要求编写Python函数,实现想要的任何功能,使用的LLM模型越小,它可能具备的编码技能就越少,目前,使用AnyNode需要OpenAI API密钥。法国初创公司 AniML推出Doly,用iPhone 生成3D产品视频:可以使用手机生成3D 模型,并将其转换为专业的产品视频。将手机相机对准产品,然后围绕产品移动,应用程序会抓取静态图像并将其发送到云端。Doly 利用高斯光斑技术将2D 图像转换为逼真的3D 模型,采用了新兴的神经网络技术。AniML 目前已经完成了 200 万美元融资。黄仁勋的个人财富已达到约936亿美元,在全球富豪榜第17位。在被问及退休问题时,黄仁勋以幽默回应自己没有其他事可做,暗示暂无退休计划。尽管黄仁勋表示自己还能继续领导英伟达三四十年,但市场对于这家芯片巨头未来的担忧并未因此消除。谷歌CEO称,AI 可能会给人一种“具备意识”的假象:谷歌 CEO 桑达尔・皮查伊表示:“在未来几年里,我们会有 AI 具备了意识的假象,你可能无法区分。但是,这与 AI 真正具备意识是不同的,这是一个非常深刻的哲学话题。”OpenAI 联合创始人谈为什么 OpenAI 最先做出 GPT-4?:Greg透露,团队中不仅仅有学术背景的研究型人才,同时还有优秀的工程人才,这使得他们能够从不同的角度解决问题,更有效地推动项目进步。网飞CEO称抢你饭碗的不是 AI,而是熟练使用 AI 的人:网飞首席执行官Ted Sarandos表示:“我不相信人工智能程序能创作出比人类顶尖编剧更好的作品,也不相信 AI 未来会取代优秀的演员,更不相信未来我们无法分辨 AI 和人类作品的差别。”他称当今创意领域使用 AI 是水到渠成的事情。编剧、导演、剪辑师将把人工智能作为一种工具,更好、更高效地完成他们的任务。
Product Hunt 热榜:智能知识接口IKI AI
IKI AI 是一个集成了数字图书馆和知识助手的智能知识接口,已有超过 10,000 名用户加入。允许用户通过自然语言查询搜索所有知识,并提供一个以 GPT-4o 为动力的协同工作助手,用于研究、推理和构思。IKI AI 的图书馆具有自我组织功能,能够自动创建知识线索和标签,同时支持团队协作,创建私人空间进行知 ledge sharing。用户可以从任何来源提取知识,包括 PDF、URL、视频或云存储,并可以请求 AI 寻找答案或进行研究、分析或生成复杂文本。
1.YOLOv10:目标检测领域的重大突破
YOLOv10 作为 YOLO 系列最新进展,由清华大学研究团队发布,在目标检测领域取得了重大突破。采用一致双重分配技术,实现无需非极大值抑制(NMS)的端到端训练,大幅提升性能和效率。🔗https://github.com/THU-MIG/yolov102.GPT 学术优化 (GPT Academic)
GPT Academic是一个为 GPT/GLM 等大型语言模型提供实用化交互接口的项目,专门优化论文阅读、润色、写作体验,支持模块化设计、自定义快捷按钮和函数插件,以及 Python 和 C++ 项目分析和自译解功能。同时,它提供 PDF/LaTeX 论文翻译和总结功能,支持并行问询多种大型语言模型,包括本地模型如 chatglm3,并已接入多个 AI 服务,如通义千问、deepseekcoder、讯飞星火、文心一言等。🔗https://github.com/binary-husky/gpt_academic开发者推荐:InstructAvatar 精确控制虚拟人情感与表情
InstructAvatar 项目由北京大学的研究人员提出,解决现有的说话虚拟人生成模型在细节表情和情感控制方面的不足。
该研究提出了一种基于自然语言接口的新型方法,能够通过文本指令精确控制虚拟人的情感表达和面部运动。研究团队设计了一个自动标注流水线来构建指令 - 视频对配的训练数据集,并开发了一个基于两分支扩散模型的生成器,能够同时根据音频和文本指令预测虚拟人的运动。🔗https://wangyuchi369.github.io/InstructAvatar/
研究显示,数字技术可能加剧不平等,特别是中等收入岗位受到冲击。尽管技术长期内能提升生产力和工资,但短期内可能导致收入下降,尤其是当技术用于自动化现有工作而非创造新工作时。
任务分解模型显示,自1980年代起,数字技术开始取代中等收入工作,提高高技能任务的效率和薪酬,导致中低收入工作的分化。创造新工作和政策支持至关重要,如好莱坞编剧师协会确保编剧在使用AI辅助工具时获得完整信用和报酬,以确保技术进步造福社会。🔗https://hbr.org/2024/05/ai-is-making-economists-rethink-the-story-of-automation本文产品编辑 zhumaterialism 深耕于AIGC知识领域的应用研究,期待与同行及感兴趣的读者交流思想、分享见解。欢迎添加以便深入探讨,共同推动行业进步。欢迎开发者主动联系提交产品,一起探索AI在各领域的创新应用,携手前行。