Re: 各位大佬怎么看Deepseek - 信息科学技术学院(EECS)版

Re: 各位大佬怎么看Deepseek

上一帖顶部下一帖
显示图片底部

mrzack编程诛心 2025-01-29 23:30:18 #17793

昨天实测了14B版本，跑了很多任务，比llama3 8B版本强的实在太多，推理能力很强，感觉已经可用了，推理能力应该在gpt-4o的水平，但是有个问题就是，可能是因为模型太小，他的记忆很多是错的，很多API或者字符编码（我只测了这两个）记的是错的，但是如果你给他一个正确的API名字，他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。

所以我有个猜想就是，未来是大模型蒸馏的小模型+远端的数据库。再等几次优化，如果14B版本甚至8B版本推理再加强的话，使用远端的知识库+本地的小模型，可能是能直接达到或者至少非常接近现在大模型的水平。

所以这波英伟达的逻辑可能真的被颠覆了，因为其实现在大部分普通人都有消费级显卡，也就是不需要再升级显卡，就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力，推理的时候削弱现在99%的算力，均摊到每台个人PC上。

但是大公司训练大模型的时候算力需求是有限的，英伟达无限的堆算力理论就被打破了。。

（未来会不会是远端的数据库反而成了收费项目）

这是我个人的猜想

cretaceous (ID_rampage) 在 ta 的帖子中提到：

美媒：还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈，算力封锁貌似也不成立了；

而很多工程中的trick（无贬义）亦能带来颠覆性的结果；

……

回复转载 