首页版面好友提醒登录
返回信息科学技术学院版 同主题展开

Re: 纯使用角度,deepseek和豆包啥的有啥区别

jethro我想碎觉 2025-02-06 15:41:32
#17866

在MMLU测评中,deepseek r1取得了90.8分,略低于OpenAI o1的91.8,高于Doubao-1.5 Pro的88.6。很多人或许会疑惑:MMLU这类测试的高低,对普通用户的使用体验真的有影响吗?事实上,MMLU的设计初衷就是为了公平且客观地衡量大型语言模型(LLM)的基础能力,而在高分区间每提升一分,都意味着巨大的技术突破与投入。


当下,各家厂商都在竞争LLM的应用,但如果模型的基础能力不足,再多的应用也只能算“在泥土上雕花”,难以取得实质性的突破。反之,若模型基础能力强,不仅在通用场景中表现优异,也更能适配各种定制化应用。由此可见,MMLU的高分往往意味着更强大的底层能力,而基础能力强的LLM,在日常使用中也会带来更好的体验和效果。

jethro (jethro) 在 ta 的帖子中提到:

说豆包够用的应该和十年前吹手机性能过剩的是同一批人