Re: 各位大佬怎么看Deepseek - 信息科学技术学院(EECS)版 - 北大未名BBS

Re: 各位大佬怎么看Deepseek

[复制链接] 浏览该主题帖

mrzack [离线]

编程诛心

3.4中级站友

发帖数:484 原创分:0
关注
<ASCIIArt> #17793

昨天实测了14B版本,跑了很多任务,比llama3 8B版本强的实在太多,推理能力很强,感觉已经可用了,推理能力应该在gpt-4o的水平,但是有个问题就是,可能是因为模型太小,他的记忆很多是错的,很多API或者字符编码(我只测了这两个)记的是错的,但是如果你给他一个正确的API名字,他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。


所以我有个猜想就是,未来是大模型蒸馏的小模型+远端的数据库。再等几次优化,如果14B版本甚至8B版本推理再加强的话,使用远端的知识库+本地的小模型,可能是能直接达到或者至少非常接近现在大模型的水平。

所以这波英伟达的逻辑可能真的被颠覆了,因为其实现在大部分普通人都有消费级显卡,也就是不需要再升级显卡,就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力,推理的时候削弱现在99%的算力,均摊到每台个人PC上。

但是大公司训练大模型的时候算力需求是有限的,英伟达无限的堆算力理论就被打破了。。

(未来会不会是远端的数据库反而成了收费项目)

这是我个人的猜想

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……

发表于2025-01-29 23:30:18

请您先 登录 再进行发帖

快捷回帖
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入