各位大佬怎么看Deepseek - 信息科学技术学院(EECS)版 - 北大未名BBS
返回本版
< 上一页
1
2
3
4
下一页 >
/ 4
跳转

各位大佬怎么看Deepseek

[复制链接]

lea [在线]

无爱即无忧

6.9老站友

发帖数:9.4万 原创分:3
<只看ta> <ASCIIArt>
41楼


边际效应递减,不是算力越大越好...


BoeingNG (BoeingNG) 在 ta 的帖子中提到:

感觉不可思议,用这么小的算力就可以达到那种效果,那美国人用这种方法用他们强大的算力,那不是能达到更强大的效果


签名档

└─┐└┼┌─┘└┼│─├──┬┌──┌┼──┘

┌─┘┌─┘─┐┌─┘─│    ││      │

┌─┘┌───┐│───┐    │└─┬┌┘

    ││      ││    ┌┘    │┌─┘│      ㊣

    │├───││──┼└─┌┘└──└──┼┘

└─┘└───└┘──┘──┘┘└──└─┘┘┘

发表于2025-01-29 01:06:46

euio [离线]

耳目一心

6.0地球

发帖数:3.0万 原创分:5
<只看ta> <ASCIIArt>
42楼

>不是算力越大越好...


但肯定不会是算力越大越差...


lea (无爱即无忧) 在 ta 的帖子中提到:


边际效应递减,不是算力越大越好...


签名档

昔新旧,今左右;往北大,来清华。孑民言,月涵行。德日继,欧美承。

>梅贻琦曾说过,他对政治无深研究,但对于办大学,他认为:

>“应追随蔡孑民(元培)先生兼容并包之态度,以克尽学术自由之使命。昔日之所谓新旧,今日之所谓左右,其在学校应均予以自由探讨之机会……此昔日北大之所以为北大,而将来清华之为清华,正应于此注意也。”


是言之经典,当不亚于“大楼大师说”,然知者不多,故亦移作签名档。

(我知道贵校有人对蔡校长不感冒,它们想踩就踩)(此处用“它们”,表万物一体之意,以免性别歧视之讥)

发表于2025-01-29 06:13:28

lea [在线]

无爱即无忧

6.9老站友

发帖数:9.4万 原创分:3
<只看ta> <ASCIIArt>
43楼


ls已经有人说过了,算力与算法互为瓶颈...


如果算法是瓶颈,算力确实可能越大越差...


euio (耳目一心) 在 ta 的帖子中提到:

>不是算力越大越好...

但肯定不会是算力越大越差...


签名档

咦!钱塘江上潮信来,今日方知我是我。

发表于2025-01-29 09:49:56

lea [在线]

无爱即无忧

6.9老站友

发帖数:9.4万 原创分:3
<只看ta> <ASCIIArt>
44楼


别犟,这个事儿其实前年就爆出来了,就是gpt-4相比gpt-3.5出现“退化”...


openai虽然进行了公关,但是明显是在顾左右而言他...


目前尚不清楚deepseek的“瓶颈”会出现在哪里...


不过肯定存在,不是算力上去了多少,就会相应地增加多少神奇...


GenCross (GenCross) 在 ta 的帖子中提到:

猪兄~依靠算力与算法的东西是程序~不是人工智能~机器学习可以理解为机器自动化程序编制改进~

人工智能的工程学是特征的极为省电,设备元件化,且不受突然断电的影响~


签名档

“网络无限宽广。”

“我猜想,下次人类面临技术奇点时,应该就会离开这个星球,四散前往遥远宇宙吧。”

“你又要走了吗?”“没错。”

“巴特,下次见面时,或许我们会认不出彼此。”

“那么为了以防万一,我们要不要订个暗号呢?”“代码1A84。”

“可别忘了,我们曾经...存在于这个时代。”

发表于2025-01-29 10:17:55

pkuers [离线]

pkuers

该用户不存在
<只看ta> <ASCIIArt>
45楼

比gpt好多啦

WekFer (芒果:欢迎来 Story 版玩耍~) 在 ta 的帖子中提到:

网页版的深度思考功能我觉得还是有明显问题,但是作为免费使用来说太香了

发表于2025-01-29 11:34:57

idleyouth [离线]

idleyouth

3.7kitty猫

发帖数:851 原创分:3
<只看ta> <ASCIIArt>
46楼

用了,做文献检索是垃圾,不如gemini。decode不清楚有没有比gpt更好用,对我来说暂时不会用...

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……

签名档

事情总会一件一件慢慢解决的,只是有些需要时间有些需要钱。

发表于2025-01-29 11:54:56

hanxv [离线]

氷空の花束

5.1排骨饭

发帖数:8890 原创分:3
<只看ta> <ASCIIArt>
47楼

“已有目标”

GenCross (GenCross) 在 ta 的帖子中提到:

犟个毛~自己琢磨的就是真实意识编码单元的程序编制描述与实验室验证~实验设备与方式已有目标~gpt类这种牛屎确实只是程序~看它们为了商业目标演还不如去看WWE~

签名档

求问你们有工资吗?是按月发还是按字数或者帖数?

除了发帖外还有其他工作内容吗?

如果用发帖数比较多的id会有奖金吗?

以及……你们还缺人吗?

求站内……当然直接在下面回复我也不反对


发表于2025-01-29 13:51:17

MrNerd [离线]

wsltxgd

3.4主序星

发帖数:514 原创分:0
<只看ta> <ASCIIArt>
48楼

不是有联网搜索吗,也不可以?

idleyouth (idleyouth) 在 ta 的帖子中提到:

用了,做文献检索是垃圾,不如gemini。decode不清楚有没有比gpt更好用,对我来说暂时不会用...

发表于2025-01-29 14:32:47

Crayon [离线]

一睡の夢 一期の栄華 一杯の酒

5.5主序星

发帖数:1.5万 原创分:0
<只看ta> <ASCIIArt>
49楼

内存带宽限制速度,大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版,双16核cpu , 768GB内存,$6000美元拿下,系统功率小于500w, 速度大约6-8 tokens每秒,勉强能忍,不着急的话。普通玩家也可上手,买公司退下来的二手服务器会便宜更多。


https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19

lea (无爱即无忧) 在 ta 的帖子中提到:

别犟,这个事儿其实前年就爆出来了,就是gpt-4相比gpt-3.5出现“退化”...

openai虽然进行了公关,但是明显是在顾左右而言他...

目前尚不清楚deepseek的“瓶颈”会出现在哪里...

……

发表于2025-01-29 14:54:10

saa [离线]

3.1中级站友

发帖数:239 原创分:0
<只看ta> <ASCIIArt>
50楼

感觉人人都能部署LLM其实还是蛮危险的,比如恐怖分子和毒贩可以从LLM中套瓷毒品和危险化学品的制备方法

Crayon (一睡の夢 一期の栄華 一杯の酒) 在 ta 的帖子中提到:

内存带宽限制速度,大小限制了模型和上下文长度。hugging face的人刚帖了一个纯cpu rig跑deepseek 670B 完整版,双16核cpu , 768GB内存,$6000美元拿下,系统功率小于500w, 速度大约6-8 tokens每秒,勉强能忍,不着急的话。普通玩家也可上手,买公司退下来的二手服务器会便宜更多。


https://x.com/carrigmat/status/1884244369907278106?t=_yLIGHe06z8qLUfnYY3gZQ&s=19

发表于2025-01-29 16:35:42

kidnew [离线]

kid2023

3.6中级站友

发帖数:707 原创分:0
<只看ta> <ASCIIArt>
51楼

通义千问的本地模型也会自动屏蔽敏感词,真的好傻逼。还是deepseek好使

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……

发表于2025-01-29 17:33:17

mrzack [离线]

编程诛心

3.4中级站友

发帖数:484 原创分:0
<只看ta> <ASCIIArt>
52楼

昨天实测了14B版本,跑了很多任务,比llama3 8B版本强的实在太多,推理能力很强,感觉已经可用了,推理能力应该在gpt-4o的水平,但是有个问题就是,可能是因为模型太小,他的记忆很多是错的,很多API或者字符编码(我只测了这两个)记的是错的,但是如果你给他一个正确的API名字,他是可以改对的。但是记忆力差的问题其实是可以用向量数据库或者知识库去解决的。


所以我有个猜想就是,未来是大模型蒸馏的小模型+远端的数据库。再等几次优化,如果14B版本甚至8B版本推理再加强的话,使用远端的知识库+本地的小模型,可能是能直接达到或者至少非常接近现在大模型的水平。

所以这波英伟达的逻辑可能真的被颠覆了,因为其实现在大部分普通人都有消费级显卡,也就是不需要再升级显卡,就完全可以做到本地部署。未来只有大公司在训练大模型的时候要算力,推理的时候削弱现在99%的算力,均摊到每台个人PC上。

但是大公司训练大模型的时候算力需求是有限的,英伟达无限的堆算力理论就被打破了。。

(未来会不会是远端的数据库反而成了收费项目)

这是我个人的猜想

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……

发表于2025-01-29 23:30:18

WWGGWWGG [离线]

汪汪狗狗

该用户不存在
<只看ta> <ASCIIArt>
53楼

真的是垃圾,不管付不付费

他真的天天编造文献

MrNerd (wsltxgd) 在 ta 的帖子中提到:

不是有联网搜索吗,也不可以?

发表于2025-01-29 23:55:35

mrzack [离线]

编程诛心

3.4中级站友

发帖数:484 原创分:0
<只看ta> <ASCIIArt>
54楼

再侃大山一下,前两天有人说这东西是国运级别的,我还觉得夸大其词了,但是这两天我看了YOUTUBE的评论区,各种翻,突然醒悟过来了,这东西就是国运级别的。


美国已经是把这东西当国运级别的产物,整个美国和美国盟友的公司都在押注OPENAI,以前的逻辑是这东西别人造不出来,或者造出来没他们好,他家就是事实上的垄断了,他定20刀就20刀,定200刀就200刀,全世界都要买他家的。你现在投多大的本未来都能收回来还能几倍的赚,所以能煽动一堆盟友往他家投钱,建数据中心,拉动美国的就业,股市,GDP。这一切的前提就是垄断,不管你觉得这是他们吹牛逼还是真的,他们只要能保的住这个前提,能拉的住后面的投资,故事就能讲下去。


DEEPSEEK出现以后,哪怕就证明了一件事也是让老美足够恐慌的,就是这东西我能追平你,哪怕没有超过也无所谓,你不再是垄断的了,只要这东西有竞争,他们以前讲的故事就圆下去了,如果你是投资人你难道不会想,这东西你垄断不了定价权,那收回投资肯定是个遥遥无期的事,现在再投钱那未来会不会就是打水漂?可能不是所有投资人都会这么想,但是也确实会影响很多投资人的想法。


并且DEEPSEEK可能训练成本还急剧的降低了,虽然还没有被复现,但是确实已经足以让投资人质疑现在投的钱到底有没有实际的用处,AI到底需不需要花费那么高,当然很多人说了,成本降低会让更多的人涌入,反而要买更多的产品,但是这个逻辑真的稳固吗?第一次降成本抗的住,如果再来一次,普通PC就够用的话,那现在英伟达的产能真的不是过剩吗?投资投的是未来,英伟达已经透支了很多未来的涨幅了,如果没有足够的支撑逻辑,那美国人的养老钱怕是不保。

还有就是,DEEPSEEK真的未必需要美国的推理显卡,就算训练必须要英伟达的产品,但是部署起来更多的推理显卡可以用华为的昇腾代替,并且以后这个世界上不再是OPENAI一家公司,那英伟达未来真未必能进入国内的大模型市场,至少推理不好进来,而且中国人一旦杀入这个领域,会把OPENAI的利润也直接给打光的。OPENAI+英伟达两家公司现在的高估值都会受到极其严重的质疑。从资本市场的反应来看质疑确实再加剧,前天跑的基本都是机构和基金,直接跌了将近17,昨天进的都是散户涨回去了9个点,今天现在正在跌5个点,我个人觉得,这个估值下,如果逻辑不是完全确定的话,至少机构和基金好像没有入场的理由。


再看对周围小弟的影响,我看了韩国、日本、法国的报道,评论区绝大部分都在感叹中国的强大,只有中国才能和美国抗衡。对整个中国对外合作都有极好的影响,告诉小弟们,跟着大哥吃香喝辣,大哥这啥都有,别老看老美那里。


对汇率的影响,当纳斯达克不再赚钱的时候,国内的资金是不是会回流呢?我觉得是会的,对整个国人都有很强的激励作用,要相信自己的祖国嘛。


所以我觉得这东西,可能就是改变国运的。。

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……

发表于2025-01-30 00:18:47

DeltaGrey [离线]

甘雨

3.1主序星

发帖数:260 原创分:0
<只看ta> <ASCIIArt>
55楼

o1和r1都用过,单从写代码能力来看,o1代码质量更高。一个简单的例子,epoch时间戳转换成seconds from midnight, r1就很绕,o1直接 x%86400

cretaceous (ID_rampage) 在 ta 的帖子中提到:

美媒:还真就让他们小米加步枪给端了老家了

感觉Deepseek出现说明这轮AI暂时没有根本的技术瓶颈,算力封锁貌似也不成立了;

而很多工程中的trick(无贬义)亦能带来颠覆性的结果;

……

发表于2025-01-30 10:00:35

ahavision [离线]

aha_vision

1.8一般站友

发帖数:21 原创分:0
<只看ta> <ASCIIArt>
56楼

理由呢?

simaguang (nihao) 在 ta 的帖子中提到:

事出反常必有妖。感觉这件事透着邪乎

发表于2025-01-30 10:48:27

ahavision [离线]

aha_vision

1.8一般站友

发帖数:21 原创分:0
<只看ta> <ASCIIArt>
57楼

谁跟你说幻方用交易数据训练deepseek了?

jerrrrrrry (21世纪炼金师) 在 ta 的帖子中提到:

为啥Deepseek出现之前大厂和资本都是倾向去堆算力,没怎么听到有通过优化算法绕过算力限制的,导致英伟达的火热和对CN的算力制裁。Deepseek使用下来日常感受和Chat-gpt差不多,我认为Deepseek不一定是最好or最终的AI,短期意义在于打破了英伟达算力制裁的嚣张气焰(但我仍旧认为算力是强AI的核心基础),长期意义在于探索出新的发展路径。

题外话是Deepseek是幻方搞出来的,幻方主业是私募基金搞量化交易的,A股的T+1交易模式能搞量化?A股的训练数据是怎么转到Deepseek去搞通用社科AI的?

发表于2025-01-30 10:50:23
楼主

cretaceous [离线]

ID_rampage

3.1主序星

发帖数:255 原创分:0
<只看ta> <ASCIIArt>
58楼

相比美帝的h200集群算是“小米”+步枪了吧,我们一般人手里的可能只算平底锅

aaliqinaa (FastStone) 在 ta 的帖子中提到:

幻方量化不是号称有上万张英伟达A100卡吗?没有这些卡也很难训出来吧,咋成了小米加步枪

发表于2025-01-30 10:51:50
楼主

cretaceous [离线]

ID_rampage

3.1主序星

发帖数:255 原创分:0
<只看ta> <ASCIIArt>
59楼

哈哈,拥抱科技,人类总会找到自己的救赎的

Airsupply (今天北京有雾霾么) 在 ta 的帖子中提到:

我门外汉,但是会好奇,为什么全网的震惊和关注还是在国际竞争和产业竞赛上。我怎么觉得deepseek的震撼不仅是工程成本控制,开源这些方面,而是低成本的这个发展速度,用不了几年就会出现真正的“通用性人工智能”。那就真的会出现一种新的生命形式了,感觉人类要马上变得可有可无了

发表于2025-01-30 10:52:52
楼主

cretaceous [离线]

ID_rampage

3.1主序星

发帖数:255 原创分:0
<只看ta> <ASCIIArt>
60楼

你这个名字➕logo好像也没啥问题😂

ChadGPT (Ultimate GPT&LaMDA Entity) 在 ta 的帖子中提到:

我没意见

发表于2025-01-30 10:54:27
返回本版
< 上一页
1
2
3
4
下一页 >
/ 4
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入