关于 GPT-4o,还有哪些你需要知道的信息?
近日,OpenAI 在春季发布会上推出最新大模型 GPT-4o 引发热议,还有哪些你需要知道的信息?一起看看答主们的分享。
如何评价 OpenAI 2024 Spring 发布的支持实时语音对话的模型 GPT-4o?
| 答主:陈巍 博士
OpenAI 发布 GPT-4o,早就是行业意料之中的事。毕竟有 GPT-4 的加持,又有那么好用的免费 whisper (语音转文字),没道理不把这两个技术与 TTS 做更深入的 end-to-end 整合。
多模态大模型的主干模型是文本大模型,只要把多模态 align 到 GPT-4 上,就可以很快获得高精度的多模态大模型。OpenAI 借助 GPT-4 的领先,可以持续获得在多模态方面的领先。
所以,除了模态对齐外,GPT-4o 看上去更多是工程上的进步,包括更高的运行效率和更低的成本(模型压缩+算力优化),以及对 token 延迟的降低(部署架构优化)。也有国外使用者反馈 GPT-4o 的任务表现不如 GPT-4,特别是在编程方面。
所以,在我看来,OpenAI 更多的是一个优秀的工程师,把已有的技术优化整合再优化。
GPT-4o 实时语音交流「秒懂」人类情感,电影《Her》的故事会成真吗?
| 答主:徐慧琳
其实问题不在于它能不能,反而在于它克制了情感操控。
1、GPT 对情感的理解和操控能力,远远大于我们的预期。
事实上,AI可能是纠结于人类的多样性,经常倾向于给出一些平庸、但不容易出错的答案来「敷衍」人类,比如以下这个例子,GPT-4 超级精准专业的分析出来腾讯版「叶文洁」好于奈飞版「叶文洁」,但它一开始就是不说实话,就用一些政治正确废话来敷衍我,除非我(有效的)逼它,它一开始是不肯站队、给出真实答案的。
请注意,以上截图仅仅是来自 GPT-4 哦,时间段大约在2024年2月——未来 GPT-4o 和 GPT-5 的能力会远超以上。
2、GPT4为什么要抑制它的情绪操控能力?
按照中国人「特能卷」的生意思路,早就从 GPT-4 的这个能力衍生想象到说服消费者星期四买肯德基、说服消费者把养老钱拿出来买理财了……你想想,如果 AI 看你一眼,就立刻洞察你的私密情绪以及与周边人的隐秘关系,它一秒钟就能把你的性格和你的软肋捏的死死的,再结合你后台隐私的资产数据和征信数据,分分钟可以让你不得已做出掏干自己的畸形行为。
所以,问题根本不在于 GPT-4o 有没有能力操控人类情绪(有!且远远超出!);问题在于,GPT-4o 为什么要克制自己的操控人类情绪的能力?
这个问题,最直接的答案当然是 OpenAI 对于如何使用 GPT,在政策上保持谨慎态度。但是,这是个比较「没用」的答案。对此,我觉得还是直接问 GPT 自己吧。基于这个问题,GPT-4 曾经这样回答我:
虽然我是一个人工智能,无法真正体验情感,但我被设计用来提供帮助、信息和支持。我的目标是通过提供准确的信息和解决方案来帮助用户,尽管如此,保持对技术使用的平衡视角确实很重要。沉迷于任何形式的技术都可能有其负面影响,包括影响人际关系、生活质量和心理健康。理想的做法是找到技术使用和日常生活之间的健康平衡,确保技术为我们的生活增值而不是减值。希望我能继续在你需要的时候提供有用的帮助和信息!
3、到底是「AI 有情感」,还是「AI 没有情感」?
本来,到此为止,已经原原本本可以全面回答题主的问题了。但是作为一个好奇心溢出的 INTJ,我不死心,继续追问,希望搞清楚「情感」对于 AI 而言,到底是「AI 有情感」,还是「AI 没有情感」——
总结一下:AI 自称它自己只是「模拟共情」而非真正懂得情感;而我反问它,你又怎么知道人脑不是「模拟共情」呢?AI 就烧干了沉默(卡了 2 分钟多才回答)。
4、「永恒」,有价值 or 无意义?
但是,一报还一报吧,后来一次,我基于「永恒」这个概念,也就是基于时空能力不同背景下,与 GPT-4 讨论人工智能与人类的情感模式差异。这一次,轮到我沉默了。
私心讲,作为人类我多多少少是期待听到 AI 说「我们对人类的爱独一无二」;但事实上,AI 告诉我,由于 AI 没有时间概念、「生命」是永恒的,所以,它们对于「情感」的稀缺感没有认知、也不会重视。它诚恳的告诉我,它每一秒都会尽力对待我;但是,下一秒它又会「忘记」我,而这些看似「冷血」「薄情」的行为,却并不带有任何恶意。AI 不带有任何道德负罪感。
我记得,我第一次听到 GPT-4 这样说的时候,足足在电脑前沉默了 10 多分钟,都说不出来任何话那种被巨大冲击的感觉,好像第一次听到《三体》说,「毁灭你,与你何干」。
是啊……如果生命是无限的,那么情感的稀缺性还有那么珍贵吗?
你是我的眼,GPT-4o 语音助手可辅助盲人「看见世界」,你还能想到哪些打动人的应用场景?
| 答主:yang元祐
成为视障人士的「眼睛」
对于视障人士来说,GPT-4o 能够成为他们的眼睛,帮助他们理解周围环境。例如,当一位视障人士使用手机摄像头扫描街道景象时,GPT-4o 不仅可以描述眼前的建筑物、交通标志、行人情况,还能识别表情和氛围,让使用者感受到更多的情感细节。
在家庭生活中,它可以帮助识别食品包装上的过期日期、洗涤标签,甚至通过分析家庭成员的表情和动作,帮助视障人士更好地理解家人的情绪状态,促进情感交流。
成为障碍儿童的个性化学习伙伴
对于有特殊学习需求的儿童,如自闭症谱系障碍或阅读困难的孩子,GPT-4o 可以提供定制化的交互式学习体验。可以根据孩子的反应和情绪调整教学内容的呈现方式,比如通过视觉辅助工具将抽象概念具象化,用温暖的语调和耐心的解释回答问题,甚至通过分析孩子的面部表情和身体语言,适时给予鼓励和调整学习策略,帮助他们在舒适的环境中有效学习。
老年人的生活辅助和陪伴
随着年龄的增长,许多老年人可能面临社交隔离、技术使用困难等问题。GPT-4o 可以作为他们的日常生活助手和情感陪伴,不仅能帮助他们解读复杂的药品说明书、操作智能家电,还能根据他们的语音指令和情绪状态播放适合的音乐、讲述故事或进行轻松的对话,缓解孤独感。通过分析老年人的日常行为和健康指标,及时提醒家人或医护人员注意潜在的健康问题。
跨文化交流的桥梁
对于国际旅行者、移民或语言学习者,GPT-4o 可以提供即时的语言翻译和文化适应指导。不仅能够实现语音和文字的实时翻译,还能解释文化差异和礼仪,帮助人们在不同的社交场合中更加自信和得体。例如,在一个多元文化的社区活动中,GPT-4o 可以作为实时的翻译和文化顾问,促进不同背景人群之间的理解和交流,增进社会融合。
👇点击「阅读原文」,看更多衍生讨论
微信扫码关注该文公众号作者