各位大佬怎么看Deepseek
边际效应递减,不是算力越大越好...
BoeingNG (BoeingNG) 在 ta 的帖子中提到:
感觉不可思议,用这么小的算力就可以达到那种效果,那美国人用这种方法用他们强大的算力,那不是能达到更强大的效果
>不是算力越大越好...
但肯定不会是算力越大越差...
lea (无爱即无忧) 在 ta 的帖子中提到:
边际效应递减,不是算力越大越好...
ls已经有人说过了,算力与算法互为瓶颈...
如果算法是瓶颈,算力确实可能越大越差...
euio (耳目一心) 在 ta 的帖子中提到:
>不是算力越大越好...
但肯定不会是算力越大越差...
别犟,这个事儿其实前年就爆出来了,就是gpt-4相比gpt-3.5出现“退化”...
openai虽然进行了公关,但是明显是在顾左右而言他...
目前尚不清楚deepseek的“瓶颈”会出现在哪里...
不过肯定存在,不是算力上去了多少,就会相应地增加多少神奇...
GenCross (GenCross) 在 ta 的帖子中提到:
猪兄~依靠算力与算法的东西是程序~不是人工智能~机器学习可以理解为机器自动化程序编制改进~
人工智能的工程学是特征的极为省电,设备元件化,且不受突然断电的影响~
比gpt好多啦
WekFer (芒果:欢迎来 Story 版玩耍~) 在 ta 的帖子中提到:
网页版的深度思考功能我觉得还是有明显问题,但是作为免费使用来说太香了
用了,做文献检索是垃圾,不如gemini。decode不清楚有没有比gpt更好用,对我来说暂时不会用...
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
“已有目标”
GenCross (GenCross) 在 ta 的帖子中提到:
犟个毛~自己琢磨的就是真实意识编码单元的程序编制描述与实验室验证~实验设备与方式已有目标~gpt类这种牛屎确实只是程序~看它们为了商业目标演还不如去看WWE~
不是有联网搜索吗,也不可以?
idleyouth (idleyouth) 在 ta 的帖子中提到:
用了,做文献检索是垃圾,不如gemini。decode不清楚有没有比gpt更好用,对我来说暂时不会用...
内存带宽限制速度,大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版,双16核cpu , 768GB内存,$6000美元拿下,系统功率小于500w, 速度大约6-8 tokens每秒,勉强能忍,不着急的话。普通玩家也可上手,买公司退下来的二手服务器会便宜更多。
https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19
lea (无爱即无忧) 在 ta 的帖子中提到:
别犟,这个事儿其实前年就爆出来了,就是gpt-4相比gpt-3.5出现“退化”...
openai虽然进行了公关,但是明显是在顾左右而言他...
目前尚不清楚deepseek的“瓶颈”会出现在哪里...
……
感觉人人都能部署LLM其实还是蛮危险的,比如恐怖分子和毒贩可以从LLM中套瓷毒品和危险化学品的制备方法
Crayon (一睡の夢 一期の栄華 一杯の酒) 在 ta 的帖子中提到:
内存带宽限制速度,大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版,双16核cpu , 768GB内存,$6000美元拿下,系统功率小于500w, 速度大约6-8 tokens每秒,勉强能忍,不着急的话。普通玩家也可上手,买公司退下来的二手服务器会便宜更多。
https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19
通义千问的本地模型也会自动屏蔽敏感词,真的好傻逼。还是deepseek好使
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
昨天实测了14B版本,跑了很多任务,比llama3 8B版本强的实在太多,推理能力很强,感觉已经可用了,推理能力应该在gpt-4o的水平,但是有个问题就是,可能是因为模型太小,他的记忆很多是错的,很多API或者字符编码(我只测了这两个)记的是错的,但是如果你给他一个正确的API名字,他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。
所以我有个猜想就是,未来是大模型蒸馏的小模型+远端的数据库。再等几次优化,如果14B版本甚至8B版本推理再加强的话,使用远端的知识库+本地的小模型,可能是能直接达到或者至少非常接近现在大模型的水平。
所以这波英伟达的逻辑可能真的被颠覆了,因为其实现在大部分普通人都有消费级显卡,也就是不需要再升级显卡,就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力,推理的时候削弱现在99%的算力,均摊到每台个人PC上。
但是大公司训练大模型的时候算力需求是有限的,英伟达无限的堆算力理论就被打破了。。
(未来会不会是远端的数据库反而成了收费项目)
这是我个人的猜想
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
再侃大山一下,前两天有人说这东西是国运级别的,我还觉得夸大其词了,但是这两天我看了YOUTUBE的评论区,各种翻,突然醒悟过来了,这东西就是国运级别的。
美国已经是把这东西当国运级别的产物,整个美国和美国盟友的公司都在押注OPENAI,以前的逻辑是这东西别人造不出来,或者造出来没他们好,他家就是事实上的垄断了,他定20刀就20刀,定200刀就200刀,全世界都要买他家的。你现在投多大的本未来都能收回来还能几倍的赚,所以能煽动一堆盟友往他家投钱,建数据中心,拉动美国的就业,股市,GDP。这一切的前提就是垄断,不管你觉得这是他们吹牛逼还是真的,他们只要能保的住这个前提,能拉的住后面的投资,故事就能讲下去。
DEEPSEEK出现以后,哪怕就证明了一件事也是让老美足够恐慌的,就是这东西我能追平你,哪怕没有超过也无所谓,你不再是垄断的了,只要这东西有竞争,他们以前讲的故事就圆下去了,如果你是投资人你难道不会想,这东西你垄断不了定价权,那收回投资肯定是个遥遥无期的事,现在再投钱那未来会不会就是打水漂?可能不是所有投资人都会这么想,但是也确实会影响很多投资人的想法。
并且DEEPSEEK可能训练成本还急剧的降低了,虽然还没有被复现,但是确实已经足以让投资人质疑现在投的钱到底有没有实际的用处,AI到底需不需要花费那么高,当然很多人说了,成本降低会让更多的人涌入,反而要买更多的产品,但是这个逻辑真的稳固吗?第一次降成本抗的住,如果再来一次,普通PC就够用的话,那现在英伟达的产能真的不是过剩吗?投资投的是未来,英伟达已经透支了很多未来的涨幅了,如果没有足够的支撑逻辑,那美国人的养老钱怕是不保。
还有就是,DEEPSEEK真的未必需要美国的推理显卡,就算训练必须要英伟达的产品,但是部署起来更多的推理显卡可以用华为的昇腾代替,并且以后这个世界上不再是OPENAI一家公司,那英伟达未来真未必能进入国内的大模型市场,至少推理不好进来,而且中国人一旦杀入这个领域,会把OPENAI的利润也直接给打光的。OPENAI+英伟达两家公司现在的高估值都会受到极其严重的质疑。从资本市场的反应来看质疑确实再加剧,前天跑的基本都是机构和基金,直接跌了将近17,昨天进的都是散户涨回去了9个点,今天现在正在跌5个点,我个人觉得,这个估值下,如果逻辑不是完全确定的话,至少机构和基金好像没有入场的理由。
再看对周围小弟的影响,我看了韩国、日本、法国的报道,评论区绝大部分都在感叹中国的强大,只有中国才能和美国抗衡。对整个中国对外合作都有极好的影响,告诉小弟们,跟着大哥吃香喝辣,大哥这啥都有,别老看老美那里。
对汇率的影响,当纳斯达克不再赚钱的时候,国内的资金是不是会回流呢?我觉得是会的,对整个国人都有很强的激励作用,要相信自己的祖国嘛。
所以我觉得这东西,可能就是改变国运的。。
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
o1和r1都用过,单从写代码能力来看,o1代码质量更高。一个简单的例子,epoch时间戳转换成seconds from midnight, r1就很绕,o1直接 x%86400
cretaceous (ID_rampage) 在 ta 的帖子中提到:
美媒:还真就让他们小米加步枪给端了老家了
感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;
而很多工程中的trick(无贬义)亦能带来颠覆性的结果;
……
谁跟你说幻方用交易数据训练deepseek了?
jerrrrrrry (21世纪炼金师) 在 ta 的帖子中提到:
为啥Deepseek出现之前大厂和资本都是倾向去堆算力,没怎么听到有通过优化算法绕过算力限制的,导致英伟达的火热和对CN的算力制裁。Deepseek使用下来日常感受和Chat-gpt差不多,我认为Deepseek不一定是最好or最终的AI,短期意义在于打破了英伟达算力制裁的嚣张气焰(但我仍旧认为算力是强AI的核心基础),长期意义在于探索出新的发展路径。
题外话是Deepseek是幻方搞出来的,幻方主业是私募基金搞量化交易的,A股的T+1交易模式能搞量化?A股的训练数据是怎么转到Deepseek去搞通用社科AI的?
相比美帝的h200集群算是“小米”+步枪了吧,我们一般人手里的可能只算平底锅
aaliqinaa (FastStone) 在 ta 的帖子中提到:
幻方量化不是号称有上万张英伟达A100卡吗?没有这些卡也很难训出来吧,咋成了小米加步枪
哈哈,拥抱科技,人类总会找到自己的救赎的
Airsupply (今天北京有雾霾么) 在 ta 的帖子中提到:
我门外汉,但是会好奇,为什么全网的震惊和关注还是在国际竞争和产业竞赛上。我怎么觉得deepseek的震撼不仅是工程成本控制,开源这些方面,而是低成本的这个发展速度,用不了几年就会出现真正的“通用性人工智能”。那就真的会出现一种新的生命形式了,感觉人类要马上变得可有可无了
你这个名字➕logo好像也没啥问题😂
ChadGPT (Ultimate GPT&LaMDA Entity) 在 ta 的帖子中提到:
我没意见