Re: 各位大佬怎么看Deepseek
昨天实测了14B版本,跑了很多任务,比llama3 8B版本强的实在太多,推理能力很强,感觉已经可用了,推理能力应该在gpt-4o的水平,但是有个问题就是,可能是因为模型太小,他的记忆很多是错的,很多API或者字符编码(我只测了这两个)记的是错的,但是如果你给他一个正确的API名字,他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。
所以我有个猜想就是,未来是大模型蒸馏的小模型+远端的数据库。再等几次优化,如果14B版本甚至8B版本推理再加强的话,使用远端的知识库+本地的小模型,可能是能直接达到或者至少非常接近现在大模型的水平。
所以这波英伟达的逻辑可能真的被颠覆了,因为其实现在大部分普通人都有消费级显卡,也就是不需要再升级显卡,就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力,推理的时候削弱现在99%的算力,均摊到每台个人PC上。
但是大公司训练大模型的时候算力需求是有限的,英伟达无限的堆算力理论就被打破了。。
(未来会不会是远端的数据库反而成了收费项目)
这是我个人的猜想
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……