各位大佬怎么看Deepseek - 信息科学技术学院(EECS)版

lea [在线]

无爱即无忧

6.9老站友

发帖数：9.4万原创分：3

关注

<只看ta> <ASCIIArt>

41楼

边际效应递减，不是算力越大越好...

BoeingNG (BoeingNG) 在 ta 的帖子中提到：

感觉不可思议，用这么小的算力就可以达到那种效果，那美国人用这种方法用他们强大的算力，那不是能达到更强大的效果

签名档

└─┐└┼┌─┘└┼│─├──┬┌──┌┼──┘

┌─┘┌─┘─┐┌─┘─│ ││ │

┌─┘┌───┐│───┐ │└─┬┌┘

││ ││ ┌┘ │┌─┘│ ㊣

│├───││──┼└─┌┘└──└──┼┘

└─┘└───└┘──┘──┘┘└──└─┘┘┘

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 01:06:46

euio [离线]

耳目一心

6.0地球

发帖数：3.0万原创分：5

关注

<只看ta> <ASCIIArt>

42楼

>不是算力越大越好...

但肯定不会是算力越大越差...

lea (无爱即无忧) 在 ta 的帖子中提到：

边际效应递减，不是算力越大越好...

签名档

昔新旧，今左右；往北大，来清华。孑民言，月涵行。德日继，欧美承。

>梅贻琦曾说过，他对政治无深研究，但对于办大学，他认为：

>“应追随蔡孑民（元培）先生兼容并包之态度，以克尽学术自由之使命。昔日之所谓新旧，今日之所谓左右，其在学校应均予以自由探讨之机会……此昔日北大之所以为北大，而将来清华之为清华，正应于此注意也。”

是言之经典，当不亚于“大楼大师说”，然知者不多，故亦移作签名档。

（我知道贵校有人对蔡校长不感冒，它们想踩就踩）（此处用“它们”，表万物一体之意，以免性别歧视之讥）

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 06:13:28

lea [在线]

无爱即无忧

6.9老站友

发帖数：9.4万原创分：3

关注

<只看ta> <ASCIIArt>

43楼

ls已经有人说过了，算力与算法互为瓶颈...

如果算法是瓶颈，算力确实可能越大越差...

euio (耳目一心) 在 ta 的帖子中提到：

>不是算力越大越好...

但肯定不会是算力越大越差...

签名档

咦！钱塘江上潮信来，今日方知我是我。

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 09:49:56

lea [在线]

无爱即无忧

6.9老站友

发帖数：9.4万原创分：3

关注

<只看ta> <ASCIIArt>

44楼

别犟，这个事儿其实前年就爆出来了，就是gpt-4相比gpt-3.5出现“退化”...

openai虽然进行了公关，但是明显是在顾左右而言他...

目前尚不清楚deepseek的“瓶颈”会出现在哪里...

不过肯定存在，不是算力上去了多少，就会相应地增加多少神奇...

GenCross (GenCross) 在 ta 的帖子中提到：

猪兄～依靠算力与算法的东西是程序～不是人工智能～机器学习可以理解为机器自动化程序编制改进～

人工智能的工程学是特征的极为省电，设备元件化，且不受突然断电的影响～

签名档

“网络无限宽广。”

“我猜想，下次人类面临技术奇点时，应该就会离开这个星球，四散前往遥远宇宙吧。”

“你又要走了吗？”“没错。”

“巴特，下次见面时，或许我们会认不出彼此。”

“那么为了以防万一，我们要不要订个暗号呢？”“代码1A84。”

“可别忘了，我们曾经...存在于这个时代。”

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 10:17:55

pkuers [离线]

pkuers

该用户不存在

<只看ta> <ASCIIArt>

45楼

比gpt好多啦

WekFer (芒果：欢迎来 Story 版玩耍~) 在 ta 的帖子中提到：

网页版的深度思考功能我觉得还是有明显问题，但是作为免费使用来说太香了

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 11:34:57

idleyouth [离线]

idleyouth

3.7kitty猫

发帖数：851 原创分：3

关注

<只看ta> <ASCIIArt>

46楼

用了，做文献检索是垃圾，不如gemini。decode不清楚有没有比gpt更好用，对我来说暂时不会用...

cretaceous (ID_rampage) 在 ta 的帖子中提到：

美媒：还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈，算力封锁貌似也不成立了；

而很多工程中的trick（无贬义）亦能带来颠覆性的结果；

……

签名档

事情总会一件一件慢慢解决的，只是有些需要时间有些需要钱。

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 11:54:56

hanxv [离线]

氷空の花束

5.1排骨饭

发帖数：8890 原创分：3

关注

<只看ta> <ASCIIArt>

47楼

“已有目标”

GenCross (GenCross) 在 ta 的帖子中提到：

犟个毛～自己琢磨的就是真实意识编码单元的程序编制描述与实验室验证～实验设备与方式已有目标～gpt类这种牛屎确实只是程序～看它们为了商业目标演还不如去看WWE～

签名档

求问你们有工资吗？是按月发还是按字数或者帖数？

除了发帖外还有其他工作内容吗？

如果用发帖数比较多的id会有奖金吗？

以及……你们还缺人吗？

求站内……当然直接在下面回复我也不反对

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 13:51:17

MrNerd [离线]

wsltxgd

3.4主序星

发帖数：514 原创分：0

关注

<只看ta> <ASCIIArt>

48楼

不是有联网搜索吗，也不可以？

idleyouth (idleyouth) 在 ta 的帖子中提到：

用了，做文献检索是垃圾，不如gemini。decode不清楚有没有比gpt更好用，对我来说暂时不会用...

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 14:32:47

Crayon [离线]

一睡の夢一期の栄華一杯の酒

5.5主序星

发帖数：1.5万原创分：0

关注

<只看ta> <ASCIIArt>

49楼

内存带宽限制速度，大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版，双16核cpu , 768GB内存，$6000美元拿下，系统功率小于500w, 速度大约6-8 tokens每秒，勉强能忍，不着急的话。普通玩家也可上手，买公司退下来的二手服务器会便宜更多。

https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19

lea (无爱即无忧) 在 ta 的帖子中提到：

别犟，这个事儿其实前年就爆出来了，就是gpt-4相比gpt-3.5出现“退化”...

openai虽然进行了公关，但是明显是在顾左右而言他...

目前尚不清楚deepseek的“瓶颈”会出现在哪里...

……

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 14:54:10

saa [离线]

飒

3.1中级站友

发帖数：239 原创分：0

关注

<只看ta> <ASCIIArt>

50楼

感觉人人都能部署LLM其实还是蛮危险的，比如恐怖分子和毒贩可以从LLM中套瓷毒品和危险化学品的制备方法

Crayon (一睡の夢一期の栄華一杯の酒) 在 ta 的帖子中提到：

内存带宽限制速度，大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版，双16核cpu , 768GB内存，$6000美元拿下，系统功率小于500w, 速度大约6-8 tokens每秒，勉强能忍，不着急的话。普通玩家也可上手，买公司退下来的二手服务器会便宜更多。

https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 16:35:42

kidnew [离线]

kid2023

3.6中级站友

发帖数：707 原创分：0

关注

<只看ta> <ASCIIArt>

51楼

通义千问的本地模型也会自动屏蔽敏感词，真的好傻逼。还是deepseek好使

cretaceous (ID_rampage) 在 ta 的帖子中提到：

美媒：还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈，算力封锁貌似也不成立了；

而很多工程中的trick（无贬义）亦能带来颠覆性的结果；

……

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 17:33:17

mrzack [离线]

编程诛心

3.4中级站友

发帖数：484 原创分：0

关注

<只看ta> <ASCIIArt>

52楼

昨天实测了14B版本，跑了很多任务，比llama3 8B版本强的实在太多，推理能力很强，感觉已经可用了，推理能力应该在gpt-4o的水平，但是有个问题就是，可能是因为模型太小，他的记忆很多是错的，很多API或者字符编码（我只测了这两个）记的是错的，但是如果你给他一个正确的API名字，他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。

所以我有个猜想就是，未来是大模型蒸馏的小模型+远端的数据库。再等几次优化，如果14B版本甚至8B版本推理再加强的话，使用远端的知识库+本地的小模型，可能是能直接达到或者至少非常接近现在大模型的水平。

所以这波英伟达的逻辑可能真的被颠覆了，因为其实现在大部分普通人都有消费级显卡，也就是不需要再升级显卡，就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力，推理的时候削弱现在99%的算力，均摊到每台个人PC上。

但是大公司训练大模型的时候算力需求是有限的，英伟达无限的堆算力理论就被打破了。。

（未来会不会是远端的数据库反而成了收费项目）

这是我个人的猜想

cretaceous (ID_rampage) 在 ta 的帖子中提到：

美媒：还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈，算力封锁貌似也不成立了；

而很多工程中的trick（无贬义）亦能带来颠覆性的结果；

……

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 23:30:18

WWGGWWGG [离线]

汪汪狗狗

该用户不存在

<只看ta> <ASCIIArt>

53楼

真的是垃圾，不管付不付费

他真的天天编造文献

MrNerd (wsltxgd) 在 ta 的帖子中提到：

不是有联网搜索吗，也不可以？

回帖
回信
转载
转寄
收入文集

发表于2025-01-29 23:55:35

mrzack [离线]

编程诛心

3.4中级站友

发帖数：484 原创分：0

关注

<只看ta> <ASCIIArt>

54楼

再侃大山一下，前两天有人说这东西是国运级别的，我还觉得夸大其词了，但是这两天我看了YOUTUBE的评论区，各种翻，突然醒悟过来了，这东西就是国运级别的。

美国已经是把这东西当国运级别的产物，整个美国和美国盟友的公司都在押注OPENAI，以前的逻辑是这东西别人造不出来，或者造出来没他们好，他家就是事实上的垄断了，他定20刀就20刀，定200刀就200刀，全世界都要买他家的。你现在投多大的本未来都能收回来还能几倍的赚，所以能煽动一堆盟友往他家投钱，建数据中心，拉动美国的就业,股市,GDP。这一切的前提就是垄断，不管你觉得这是他们吹牛逼还是真的，他们只要能保的住这个前提，能拉的住后面的投资，故事就能讲下去。

DEEPSEEK出现以后，哪怕就证明了一件事也是让老美足够恐慌的，就是这东西我能追平你，哪怕没有超过也无所谓，你不再是垄断的了，只要这东西有竞争，他们以前讲的故事就圆下去了，如果你是投资人你难道不会想，这东西你垄断不了定价权，那收回投资肯定是个遥遥无期的事，现在再投钱那未来会不会就是打水漂？可能不是所有投资人都会这么想，但是也确实会影响很多投资人的想法。

并且DEEPSEEK可能训练成本还急剧的降低了，虽然还没有被复现，但是确实已经足以让投资人质疑现在投的钱到底有没有实际的用处，AI到底需不需要花费那么高，当然很多人说了，成本降低会让更多的人涌入，反而要买更多的产品，但是这个逻辑真的稳固吗？第一次降成本抗的住，如果再来一次，普通PC就够用的话，那现在英伟达的产能真的不是过剩吗？投资投的是未来，英伟达已经透支了很多未来的涨幅了，如果没有足够的支撑逻辑，那美国人的养老钱怕是不保。

还有就是，DEEPSEEK真的未必需要美国的推理显卡，就算训练必须要英伟达的产品，但是部署起来更多的推理显卡可以用华为的昇腾代替，并且以后这个世界上不再是OPENAI一家公司，那英伟达未来真未必能进入国内的大模型市场，至少推理不好进来，而且中国人一旦杀入这个领域，会把OPENAI的利润也直接给打光的。OPENAI+英伟达两家公司现在的高估值都会受到极其严重的质疑。从资本市场的反应来看质疑确实再加剧，前天跑的基本都是机构和基金，直接跌了将近17，昨天进的都是散户涨回去了9个点，今天现在正在跌5个点，我个人觉得，这个估值下，如果逻辑不是完全确定的话，至少机构和基金好像没有入场的理由。

再看对周围小弟的影响，我看了韩国、日本、法国的报道，评论区绝大部分都在感叹中国的强大，只有中国才能和美国抗衡。对整个中国对外合作都有极好的影响，告诉小弟们，跟着大哥吃香喝辣，大哥这啥都有，别老看老美那里。

对汇率的影响，当纳斯达克不再赚钱的时候，国内的资金是不是会回流呢？我觉得是会的，对整个国人都有很强的激励作用，要相信自己的祖国嘛。

所以我觉得这东西，可能就是改变国运的。。

cretaceous (ID_rampage) 在 ta 的帖子中提到：

美媒：还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈，算力封锁貌似也不成立了；

而很多工程中的trick（无贬义）亦能带来颠覆性的结果；

……

回帖
回信
转载
转寄
收入文集

发表于2025-01-30 00:18:47

DeltaGrey [离线]

甘雨

3.1主序星

发帖数：260 原创分：0

关注

<只看ta> <ASCIIArt>

55楼

o1和r1都用过，单从写代码能力来看，o1代码质量更高。一个简单的例子，epoch时间戳转换成seconds from midnight, r1就很绕，o1直接 x%86400

cretaceous (ID_rampage) 在 ta 的帖子中提到：

美媒：还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈，算力封锁貌似也不成立了；

而很多工程中的trick（无贬义）亦能带来颠覆性的结果；

……

回帖
回信
转载
转寄
收入文集

发表于2025-01-30 10:00:35

ahavision [离线]

aha_vision

1.8一般站友

发帖数：21 原创分：0

关注

<只看ta> <ASCIIArt>

56楼

理由呢？

simaguang (nihao) 在 ta 的帖子中提到：

事出反常必有妖。感觉这件事透着邪乎

回帖
回信
转载
转寄
收入文集

发表于2025-01-30 10:48:27

ahavision [离线]

aha_vision

1.8一般站友

发帖数：21 原创分：0

关注

<只看ta> <ASCIIArt>

57楼

谁跟你说幻方用交易数据训练deepseek了？

jerrrrrrry (21世纪炼金师) 在 ta 的帖子中提到：

为啥Deepseek出现之前大厂和资本都是倾向去堆算力，没怎么听到有通过优化算法绕过算力限制的，导致英伟达的火热和对CN的算力制裁。Deepseek使用下来日常感受和Chat-gpt差不多，我认为Deepseek不一定是最好or最终的AI，短期意义在于打破了英伟达算力制裁的嚣张气焰（但我仍旧认为算力是强AI的核心基础），长期意义在于探索出新的发展路径。

题外话是Deepseek是幻方搞出来的，幻方主业是私募基金搞量化交易的，A股的T+1交易模式能搞量化？A股的训练数据是怎么转到Deepseek去搞通用社科AI的？