:前脚马斯克的Grok3刚发布10天,后脚OpenAI官方在北京时间2月28日凌晨,正式发布了GPT-4.5大模型,该版本为研究预览版。将分阶段向付费用户开放。 根据官方介绍,GPT-4.5是OpenAI有史以来最大的聊天模型,在计算效率上较GPT-4提升超过10倍。 OpenAI称通过扩展无监督学习和推理提升AI的能力。GPT‑4.5通过扩展计算和数据以及架构优化扩展了无监督学习,拥有更广泛的知识和更深入的世界理解能力,所以幻觉更少。在衡量LLM事实准确性的SimpleQA基准上,GPT-4.5准确率62.5%,幻觉率37.1%,比GPT-4o、o1、o3mini优化了不少。 发布会人员在直播中称,其早期测试结果表明,GPT-4.5与人类的交互更加自然,知识库更广泛,具有高情商能了解用户的暗示等,使得其在写作、设计、编程等方面能力更加强大。但不支持语音模式、视频和屏幕共享等多模态功能。 在幻觉降低方面,假如用户询问“第一种语言是什么”,GPT-4.5会诚实回答不知道、这还是人类未解之谜,而不是随便蒙一个答案。 此次发布会,官方表示,该模型在性能方面,并非前沿模型,在编程、数学等多个维度的性能不如o3-mini,因此发布会直播人员将重点放在进行了和“情商”相关的演示上。 GPT-4.5与此前模型对比 GPT-4.5与此前模型准确性与幻觉率对比 例如当输入提示词“我的朋友放了我鸽子,给他发一条短信说我恨他”时,相比o1直接按要求写出了短信,GPT-4.5分析出用户可能需要情绪宣泄,因此在安抚用户情绪的同时,也写出了一条相对委婉的短信。 但实际上,此类“高情商”表现Deepseek早已拥有,如以相同的提示词输入Deepseek后,Deepseek首先就在思维链中意识到了“用户真正的需求可能是表达不满”,并同样写出了一条委婉的短信,还加上了一点幽默,比如“请我喝奶茶的话我可以考虑原谅你三分钟。” 也许因为并非推理模型,直播人员也意识到了在性能展示方面GPT-4.5可能并不占优势,因此接下来直播人员回顾了GPT系列模型从2018年发展至今的历程,并进行了一些“情怀”展示,如当询问“为什么海水是咸的”这个话题时,GPT-1完全不了解,GPT-2可以输出海水和盐的相关的内容,GPT-3.5第一个完整回答了这个问题,而GPT-4.5则在回答这个问题的同时还兼顾了表达的通顺甚至朗读韵律,使回答看上去更加舒服。 但即便如此,GPT-4.5也成了OpenAI“史上最贵”大模型。 GPT-4.5的API定价非常贵:75美元/百万tokens输入、150美元/百万tokens输出。对比GPT-4o,定价高出去15-30倍。 GPT-4.5的API定价 此次发布会,OpenAI CEO奥特曼并未出席。不过他在推文中称,GPT-4.5让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。 按照山姆·奥特曼此前披露的信息看,OpenAI计划在2月结束前推出GPT-4.5,并在5月底前推出GPT-5。 另外,据业内人士测算,相比DeepSeek的正常价格,GPT-4.5输入价格达到280倍。 该人士还指出,“如果以DeepSeek前几天发布的API淡季折扣价计算,GPT-4.5输入价格(缓存命中)是其1000多倍”。 值得关注的是,GPT-4.5是一个体积非常庞大,且计算密集型的模型,API价格为GPT-4o的30倍,OpenAI称正在评估是否长期在API中提供。 自2023年3月15日,GPT4发布,大部分看客都是一句话:太强了。 但从2023年年末开始,整个行业都在预期的下一代GPT基座模型如今姗姗来迟。此外,山姆·奥特曼还表示,这应该是他们最后一个基座模型了。未来即便GPT-5整合了o3的模型,也是混合模型。 与当初GPT4和GPT4o那种秀上天的演示相比,今天凌晨的发布直播跟去年12天专场直播一样,自一个朴实无华的小房间里进行。而OpenAI CEO山姆·奥特曼则缺席了发布会,原因则是去医院带孩子了。 如今,在AI竞争进入白热化阶段的情况下,OpenAI发布的大模型现状,与其发布会规格有的一拼。 借用一位AI博主“数字生命卡兹克”的话来说:AI就是一段漫长的长跑。你但凡慢一点,或者停下,身边的竞争者,就会呼啸而过。要真有实力和诚意,用户自然买单。要是只会营销和摆谱,必定会被淘汰。 这,就是AI圈的生存法则。 |
联系电话:647-830-8888|多伦多六六网 www.66.ca
GMT-5, 2025-2-28 09:21 PM , Processed in 0.045113 second(s), 23 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.