各位大佬怎么看Deepseek
他们是独立出来一个团队去做大模型,应该没有用a股的数据。。吧。。pretrain的数据其实大家都大差不差,RLHF那部份才依靠人力主观,或者我认为大概率是“destill”。
此事充分说明做量化的,都是大牛啊😂
jerrrrrrry (21世纪炼金师) 在 ta 的帖子中提到:
为啥Deepseek出现之前大厂和资本都是倾向去堆算力,没怎么听到有通过优化算法绕过算力限制的,导致英伟达的火热和对CN的算力制裁。Deepseek使用下来日常感受和Chat-gpt差不多,我认为Deepseek不一定是最好or最终的AI,短期意义在于打破了英伟达算力制裁的嚣张气焰(但我仍旧认为算力是强AI的核心基础),长期意义在于探索出新的发展路径。
题外话是Deepseek是幻方搞出来的,幻方主业是私募基金搞量化交易的,A股的T+1交易模式能搞量化?A股的训练数据是怎么转到Deepseek去搞通用社科AI的?
个人认为算力的饱和,可以让R&D去做充分的探索,这样更有机会产生新的技术路径和突破。
算力紧缺,或者最终考虑落地成本,就会在各种优化上下功夫。
现在看来,后者其实还是个蓝海。
whale (Jiujiu) 在 ta 的帖子中提到:
算法和算力互为瓶颈,R1能复现的话,就会有更强的ChatGPT-R1、llama-R1…出现,算法暂时到顶时,不又得回到堆算力的时候……
记得十多年前dl刚出来那会有同学在隔壁微软实习做了篇eccv,效果奇好。
然而在实验室大组组会被一顿批,老板认为神经网络上世纪的东西,现在又拿出来炒,无非就是高纬的数据回归和分类。
那时候这位同学也确实,讲不出insight,讲不出knowhow,就是效果砸脸上。
到了现在cv和nlp的很多问题都被dl给基本解决了,至少逼近人的水平。
可能这就是“AGI”和“人工智能”的区别
GenCross (GenCross) 在 ta 的帖子中提到:
它只是个更好用的GPT替~这条线上所有的玩意都是smart产品~谈“人工智能”还是洗洗早睡吧~
我的3090还能再战10年
allgewalt (四金) 在 ta 的帖子中提到:
Gpu向下斩的空间还很大,人脑功率才20w,现在的gpu动辄500w
你应该看了这个去put英伟达
yxlu (yxlu) 在 ta 的帖子中提到:
这波直接给我昨天小米的空单给打飞了, 笑
看到一堆A股上市公司庄家炒概念,冒充与这些科技独角兽有合作或者是其供应商,但这并不影响我坚定做多中国的决心😂
mrzack (编程诛心) 在 ta 的帖子中提到:
再侃大山一下,前两天有人说这东西是国运级别的,我还觉得夸大其词了,但是这两天我看了YOUTUBE的评论区,各种翻,突然醒悟过来了,这东西就是国运级别的。
美国已经是把这东西当国运级别的产物,整个美国和美国盟友的公司都在押注OPENAI,以前的逻辑是这东西别人造不出来,或者造出来没他们好,他家就是事实上的垄断了,他定20刀就20刀,定200刀就200刀,全世界都要买他家的。你现在投多大的本未来都能收回来还能几倍的赚,所以能煽动一堆盟友往他家投钱,建数据中心,拉动美国的就业,股市,GDP。这一切的前提就是垄断,不管你觉得这是他们吹牛逼还是真的,他们只要能保的住这个前提,能拉的住后面的投资,故事就能讲下去。
DEEPSEEK出现以后,哪怕就证明了一件事也是让老美足够恐慌的,就是这东西我能追平你,哪怕没有超过也无所谓,你不再是垄断的了,只要这东西有竞争,他们以前讲的故事就圆下去了,如果你是投资人你难道不会想,这东西你垄断不了定价权,那收回投资肯定是个遥遥无期的事,现在再投钱那未来会不会就是打水漂?可能不是所有投资人都会这么想,但是也确实会影响很多投资人的想法。
……
最终的ai肯定是不可能的。a股虽然是t+1但是可以做日内t融券达到t0的效果,大模型的预训练数据是多种多样的,a股数据放进去没有不知道,光有a股数据是不可能产生通用社科ai的能力的
jerrrrrrry (21世纪炼金师) 在 ta 的帖子中提到:
为啥Deepseek出现之前大厂和资本都是倾向去堆算力,没怎么听到有通过优化算法绕过算力限制的,导致英伟达的火热和对CN的算力制裁。Deepseek使用下来日常感受和Chat-gpt差不多,我认为Deepseek不一定是最好or最终的AI,短期意义在于打破了英伟达算力制裁的嚣张气焰(但我仍旧认为算力是强AI的核心基础),长期意义在于探索出新的发展路径。
题外话是Deepseek是幻方搞出来的,幻方主业是私募基金搞量化交易的,A股的T+1交易模式能搞量化?A股的训练数据是怎么转到Deepseek去搞通用社科AI的?
a股数据应该确实没啥用..但是预训练数据不可能大差不差的
cretaceous (ID_rampage) 在 ta 的帖子中提到:
他们是独立出来一个团队去做大模型,应该没有用a股的数据。。吧。。pretrain的数据其实大家都大差不差,RLHF那部份才依靠人力主观,或者我认为大概率是“destill”。
此事充分说明做量化的,都是大牛啊
愿听其详,现在这些厂的预训练数据主要来源是?差别在哪儿呢
znf (tensorglow) 在 ta 的帖子中提到:
a股数据应该确实没啥用..但是预训练数据不可能大差不差的
deepseek核心成员4P2T,你怎么得出这结论的?
azhu (xiaozz) 在 ta 的帖子中提到:
p大cs在业界的发展,落后其他高校感觉真的比较多
好一个角度
allgewalt (四金) 在 ta 的帖子中提到:
Gpu向下斩的空间还很大,人脑功率才20w,现在的gpu动辄500w
最初来源肯定不一样啦,筛选与合成方式肯定也是有差异的,那些数据拿来要清洗筛选什么的,质量会不同,规模也会不同,有的模态会合成许多数据,方式也不一样,但是数据分布应该都一样
cretaceous (ID_rampage) 在 ta 的帖子中提到:
愿听其详,现在这些厂的预训练数据主要来源是?差别在哪儿呢
不好用,这是这些生成式ai的通病,应该是无法访问期刊网站或者被验证卡住等原因,但gemini因为有google作为引擎做学术检索会好不少,但依旧有问题
MrNerd (wsltxgd) 在 ta 的帖子中提到:
不是有联网搜索吗,也不可以?