Re: 纯使用角度,deepseek和豆包啥的有啥区别
[复制链接] 浏览该主题帖
<ASCIIArt>
#17866
在MMLU测评中,deepseek r1取得了90.8分,略低于OpenAI o1的91.8,高于Doubao-1.5 Pro的88.6。很多人或许会疑惑:MMLU这类测试的高低,对普通用户的使用体验真的有影响吗?事实上,MMLU的设计初衷就是为了公平且客观地衡量大型语言模型(LLM)的基础能力,而在高分区间每提升一分,都意味着巨大的技术突破与投入。
当下,各家厂商都在竞争LLM的应用,但如果模型的基础能力不足,再多的应用也只能算“在泥土上雕花”,难以取得实质性的突破。反之,若模型基础能力强,不仅在通用场景中表现优异,也更能适配各种定制化应用。由此可见,MMLU的高分往往意味着更强大的底层能力,而基础能力强的LLM,在日常使用中也会带来更好的体验和效果。
jethro (jethro) 在 ta 的帖子中提到:
说豆包够用的应该和十年前吹手机性能过剩的是同一批人
