各位大佬怎么看Deepseek
[复制链接] 分享:>不是算力越大越好...
但肯定不会是算力越大越差...
lea (无爱即无忧) 在 ta 的帖子中提到:
边际效应递减,不是算力越大越好...
签名档
昔新旧,今左右;往北大,来清华。孑民言,月涵行。德日继,欧美承。
>梅贻琦曾说过,他对政治无深研究,但对于办大学,他认为:
>“应追随蔡孑民(元培)先生兼容并包之态度,以克尽学术自由之使命。昔日之所谓新旧,今日之所谓左右,其在学校应均予以自由探讨之机会……此昔日北大之所以为北大,而将来清华之为清华,正应于此注意也。”
是言之经典,当不亚于“大楼大师说”,然知者不多,故亦移作签名档。
(我知道贵校有人对蔡校长不感冒,它们想踩就踩)(此处用“它们”,表万物一体之意,以免性别歧视之讥)
别犟,这个事儿其实前年就爆出来了,就是gpt-4相比gpt-3.5出现“退化”...
openai虽然进行了公关,但是明显是在顾左右而言他...
目前尚不清楚deepseek的“瓶颈”会出现在哪里...
不过肯定存在,不是算力上去了多少,就会相应地增加多少神奇...
GenCross (GenCross) 在 ta 的帖子中提到:
猪兄~依靠算力与算法的东西是程序~不是人工智能~机器学习可以理解为机器自动化程序编制改进~
人工智能的工程学是特征的极为省电,设备元件化,且不受突然断电的影响~
签名档
“网络无限宽广。”
“我猜想,下次人类面临技术奇点时,应该就会离开这个星球,四散前往遥远宇宙吧。”
“你又要走了吗?”“没错。”
“巴特,下次见面时,或许我们会认不出彼此。”
“那么为了以防万一,我们要不要订个暗号呢?”“代码1A84。”
“可别忘了,我们曾经...存在于这个时代。”
内存带宽限制速度,大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版,双16核cpu , 768GB内存,$6000美元拿下,系统功率小于500w, 速度大约6-8 tokens每秒,勉强能忍,不着急的话。普通玩家也可上手,买公司退下来的二手服务器会便宜更多。
https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19
lea (无爱即无忧) 在 ta 的帖子中提到:
别犟,这个事儿其实前年就爆出来了,就是gpt-4相比gpt-3.5出现“退化”...
openai虽然进行了公关,但是明显是在顾左右而言他...
目前尚不清楚deepseek的“瓶颈”会出现在哪里...
……
感觉人人都能部署LLM其实还是蛮危险的,比如恐怖分子和毒贩可以从LLM中套瓷毒品和危险化学品的制备方法
Crayon (一睡の夢 一期の栄華 一杯の酒) 在 ta 的帖子中提到:
内存带宽限制速度,大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版,双16核cpu , 768GB内存,$6000美元拿下,系统功率小于500w, 速度大约6-8 tokens每秒,勉强能忍,不着急的话。普通玩家也可上手,买公司退下来的二手服务器会便宜更多。
https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19
昨天实测了14B版本,跑了很多任务,比llama3 8B版本强的实在太多,推理能力很强,感觉已经可用了,推理能力应该在gpt-4o的水平,但是有个问题就是,可能是因为模型太小,他的记忆很多是错的,很多API或者字符编码(我只测了这两个)记的是错的,但是如果你给他一个正确的API名字,他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。
所以我有个猜想就是,未来是大模型蒸馏的小模型+远端的数据库。再等几次优化,如果14B版本甚至8B版本推理再加强的话,使用远端的知识库+本地的小模型,可能是能直接达到或者至少非常接近现在大模型的水平。
所以这波英伟达的逻辑可能真的被颠覆了,因为其实现在大部分普通人都有消费级显卡,也就是不需要再升级显卡,就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力,推理的时候削弱现在99%的算力,均摊到每台个人PC上。
但是大公司训练大模型的时候算力需求是有限的,英伟达无限的堆算力理论就被打破了。。
(未来会不会是远端的数据库反而成了收费项目)
这是我个人的猜想
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
再侃大山一下,前两天有人说这东西是国运级别的,我还觉得夸大其词了,但是这两天我看了YOUTUBE的评论区,各种翻,突然醒悟过来了,这东西就是国运级别的。
美国已经是把这东西当国运级别的产物,整个美国和美国盟友的公司都在押注OPENAI,以前的逻辑是这东西别人造不出来,或者造出来没他们好,他家就是事实上的垄断了,他定20刀就20刀,定200刀就200刀,全世界都要买他家的。你现在投多大的本未来都能收回来还能几倍的赚,所以能煽动一堆盟友往他家投钱,建数据中心,拉动美国的就业,股市,GDP。这一切的前提就是垄断,不管你觉得这是他们吹牛逼还是真的,他们只要能保的住这个前提,能拉的住后面的投资,故事就能讲下去。
DEEPSEEK出现以后,哪怕就证明了一件事也是让老美足够恐慌的,就是这东西我能追平你,哪怕没有超过也无所谓,你不再是垄断的了,只要这东西有竞争,他们以前讲的故事就圆下去了,如果你是投资人你难道不会想,这东西你垄断不了定价权,那收回投资肯定是个遥遥无期的事,现在再投钱那未来会不会就是打水漂?可能不是所有投资人都会这么想,但是也确实会影响很多投资人的想法。
并且DEEPSEEK可能训练成本还急剧的降低了,虽然还没有被复现,但是确实已经足以让投资人质疑现在投的钱到底有没有实际的用处,AI到底需不需要花费那么高,当然很多人说了,成本降低会让更多的人涌入,反而要买更多的产品,但是这个逻辑真的稳固吗?第一次降成本抗的住,如果再来一次,普通PC就够用的话,那现在英伟达的产能真的不是过剩吗?投资投的是未来,英伟达已经透支了很多未来的涨幅了,如果没有足够的支撑逻辑,那美国人的养老钱怕是不保。
还有就是,DEEPSEEK真的未必需要美国的推理显卡,就算训练必须要英伟达的产品,但是部署起来更多的推理显卡可以用华为的昇腾代替,并且以后这个世界上不再是OPENAI一家公司,那英伟达未来真未必能进入国内的大模型市场,至少推理不好进来,而且中国人一旦杀入这个领域,会把OPENAI的利润也直接给打光的。OPENAI+英伟达两家公司现在的高估值都会受到极其严重的质疑。从资本市场的反应来看质疑确实再加剧,前天跑的基本都是机构和基金,直接跌了将近17,昨天进的都是散户涨回去了9个点,今天现在正在跌5个点,我个人觉得,这个估值下,如果逻辑不是完全确定的话,至少机构和基金好像没有入场的理由。
再看对周围小弟的影响,我看了韩国、日本、法国的报道,评论区绝大部分都在感叹中国的强大,只有中国才能和美国抗衡。对整个中国对外合作都有极好的影响,告诉小弟们,跟着大哥吃香喝辣,大哥这啥都有,别老看老美那里。
对汇率的影响,当纳斯达克不再赚钱的时候,国内的资金是不是会回流呢?我觉得是会的,对整个国人都有很强的激励作用,要相信自己的祖国嘛。
所以我觉得这东西,可能就是改变国运的。。
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
谁跟你说幻方用交易数据训练deepseek了?
jerrrrrrry (21世纪炼金师) 在 ta 的帖子中提到:
为啥Deepseek出现之前大厂和资本都是倾向去堆算力,没怎么听到有通过优化算法绕过算力限制的,导致英伟达的火热和对CN的算力制裁。Deepseek使用下来日常感受和Chat-gpt差不多,我认为Deepseek不一定是最好or最终的AI,短期意义在于打破了英伟达算力制裁的嚣张气焰(但我仍旧认为算力是强AI的核心基础),长期意义在于探索出新的发展路径。
题外话是Deepseek是幻方搞出来的,幻方主业是私募基金搞量化交易的,A股的T+1交易模式能搞量化?A股的训练数据是怎么转到Deepseek去搞通用社科AI的?

