Re: 纯使用角度,deepseek和豆包啥的有啥区别 - 信息科学技术学院(EECS)版 - 北大未名BBS

Re: 纯使用角度,deepseek和豆包啥的有啥区别

[复制链接] 浏览该主题帖

jethro [离线]

我想碎觉

2.4一般站友

发帖数:34 原创分:0
关注
<ASCIIArt> #17866

在MMLU测评中,deepseek r1取得了90.8分,略低于OpenAI o1的91.8,高于Doubao-1.5 Pro的88.6。很多人或许会疑惑:MMLU这类测试的高低,对普通用户的使用体验真的有影响吗?事实上,MMLU的设计初衷就是为了公平且客观地衡量大型语言模型(LLM)的基础能力,而在高分区间每提升一分,都意味着巨大的技术突破与投入。


当下,各家厂商都在竞争LLM的应用,但如果模型的基础能力不足,再多的应用也只能算“在泥土上雕花”,难以取得实质性的突破。反之,若模型基础能力强,不仅在通用场景中表现优异,也更能适配各种定制化应用。由此可见,MMLU的高分往往意味着更强大的底层能力,而基础能力强的LLM,在日常使用中也会带来更好的体验和效果。

jethro (jethro) 在 ta 的帖子中提到:

说豆包够用的应该和十年前吹手机性能过剩的是同一批人

发表于2025-02-06 15:41:32

请您先 登录 再进行发帖

快捷回帖
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入