首页版面好友提醒登录
返回信息科学技术学院版 同主题展开

Re: 各位大佬怎么看Deepseek

mrzack编程诛心 2025-01-29 23:30:18
#17793

昨天实测了14B版本,跑了很多任务,比llama3 8B版本强的实在太多,推理能力很强,感觉已经可用了,推理能力应该在gpt-4o的水平,但是有个问题就是,可能是因为模型太小,他的记忆很多是错的,很多API或者字符编码(我只测了这两个)记的是错的,但是如果你给他一个正确的API名字,他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。


所以我有个猜想就是,未来是大模型蒸馏的小模型+远端的数据库。再等几次优化,如果14B版本甚至8B版本推理再加强的话,使用远端的知识库+本地的小模型,可能是能直接达到或者至少非常接近现在大模型的水平。

所以这波英伟达的逻辑可能真的被颠覆了,因为其实现在大部分普通人都有消费级显卡,也就是不需要再升级显卡,就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力,推理的时候削弱现在99%的算力,均摊到每台个人PC上。

但是大公司训练大模型的时候算力需求是有限的,英伟达无限的堆算力理论就被打破了。。

(未来会不会是远端的数据库反而成了收费项目)

这是我个人的猜想

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……