关于DeepSeek的一点随想
[复制链接] 分享:https://xueqiu.com/8569472370/322006030 按照雪球公布的信息,幻方量化这些年都是赚钱的。按楼主说的,幻方量化已经是千亿级别私募,千亿资金一年管理费按照0.2%算的话,铁定的收入已经是2个亿。而deepseek训练成本六百万美元,即便加上硬件成本,这对于年利润上亿元的幻方量化可能不是什么难题。
deepseek做到开源,事实上个人用下来感觉豆包并不比deepseek差到哪里,个人体验豆包=deepseek>文心一言3.5 。可能ds突出的地方在于,他们不需要利用大模型本身来赚钱,开源后用户的激增是一笔不小的金库,就像当年电商干翻实体商场一样,ds也干翻了看似精明却也老实巴交制造商品的文心一言。
个人的一个疑问是,ds借助moe架构大幅减少了训练成本,今天和科班的校友聊天,他提到moe和mmoe架构论文里早已有提及,但是个人好奇为什么其他的大模型厂商没有在ds之前用这个架构?校友回答道——“你这么问就看出来你不懂”,个人又去豆包问了一遍这个问题,得到答复如下:
“混合专家(MoE,Mixture of Experts)架构虽早有文献提出,但在 DeepSeek 之前其他厂商未广泛运用该架构来降低训练成本,可能有以下多方面原因:
技术实现难度
复杂的路由机制:MoE 架构需要一个高效的路由机制来决定输入数据应该被路由到哪个专家网络进行处理。设计和实现这样一个能够在大规模数据集和复杂任务上高效工作的路由机制是极具挑战性的。不同的任务和数据分布可能需要不同的路由策略,要找到最优的路由策略需要大量的实验和调优。
系统通信开销:MoE 架构通常涉及多个专家网络并行处理,这就需要在不同的专家网络之间进行频繁的数据通信和同步。在大规模分布式训练环境下,这种通信开销可能会成为性能瓶颈,严重影响训练效率。解决通信开销问题需要先进的分布式系统技术和优化策略。
模型训练稳定性:由于 MoE 架构中多个专家网络的存在,模型的训练过程变得更加复杂,容易出现训练不稳定的问题。例如,某些专家网络可能会出现过拟合或欠拟合的情况,导致整个模型的性能下降。保持模型训练的稳定性需要精细的超参数调整和训练策略设计。
硬件和基础设施要求
计算资源需求:MoE 架构需要大量的计算资源来支持多个专家网络的并行计算。虽然从理论上来说,MoE 可以通过稀疏激活来减少计算量,但在实际应用中,要充分发挥 MoE 的优势,仍然需要强大的计算硬件。一些厂商可能由于缺乏足够的计算资源,无法大规模应用 MoE 架构。
存储需求:MoE 模型通常比传统模型具有更多的参数,需要更大的存储空间来保存模型参数。这对于一些存储资源有限的厂商来说可能是一个障碍。
硬件兼容性:MoE 架构的实现可能需要特定的硬件支持,例如高速网络接口和高效的 GPU 计算单元。一些厂商的现有硬件基础设施可能无法很好地支持 MoE 架构的训练和推理,而更新硬件基础设施需要巨大的成本。
数据和应用场景适配性
数据稀疏性要求:MoE 架构的优势在于能够处理数据的稀疏性,通过稀疏激活不同的专家网络来提高计算效率。然而,并不是所有的数据集都具有明显的稀疏性特征。对于一些数据分布较为均匀的数据集,MoE 架构可能无法发挥出其优势,甚至可能会增加模型的复杂度和训练成本。
应用场景复杂性:不同的应用场景对模型的要求不同,一些简单的应用场景可能不需要复杂的 MoE 架构。厂商在选择模型架构时,需要综合考虑应用场景的复杂性、性能要求和成本等因素。如果传统的模型架构能够满足应用场景的需求,厂商可能不会选择采用 MoE 架构。
商业和竞争因素
研发成本和风险:采用新的模型架构需要投入大量的研发资源进行研究和开发,同时还面临着技术失败的风险。一些厂商可能更倾向于采用已经成熟的模型架构,以降低研发成本和风险。
市场竞争压力:在激烈的市场竞争环境下,厂商需要快速推出产品以抢占市场份额。采用新的模型架构可能会导致产品研发周期延长,从而影响市场竞争力。因此,一些厂商可能会选择在现有模型架构的基础上进行优化和改进,而不是冒险采用新的架构。
”
有同学可以详细解释一下吗?
另外,关于大模型是否能用于量化交易,校友说金融数据没法训练大语音模型。但是个人也有疑惑,如果训练集的输入数据是“事件文本+金融数据”,输出结果是资产价格,似乎逻辑上大模型用于量化预测没有障碍,反而是参数更多更可以做到无脑准确命中。这点也想请各位同学指点一下。
最后补充一句,deepseek的出现对于商用用户而言无疑是福音,个人使用下来也有此感受。
mycNoone (雪菜厨|傻狗|ky患者) 在 ta 的帖子中提到:
写都写了,姑且放这和大家分享一二
1.DeepSeek为什么成功?
(1)依托幻方量化公司,资金资本雄厚
……
感谢分享,很新颖的角度
cnhuyf (yishuitong) 在 ta 的帖子中提到:
https://xueqiu.com/8569472370/322006030 按照雪球公布的信息,幻方量化这些年都是赚钱的。按楼主说的,幻方量化已经是千亿级别私募,千亿资金一年管理费按照0.2%算的话,铁定的收入已经是2个亿。而deepseek训练成本六百万美元,即便加上硬件成本,这对于年利润上亿元的幻方量化可能不是什么难题。
deepseek做到开源,事实上个人用下来感觉豆包并不比deepseek差到哪里,个人体验豆包=deepseek>文心一言3.5 。可能ds突出的地方在于,他们不需要利用大模型本身来赚钱,开源后用户的激增是一笔不小的金库,就像当年电商干翻实体商场一样,ds也干翻了看似精明却也老实巴交制造商品的文心一言。
个人的一个疑问是,ds借助moe架构大幅减少了训练成本,今天和科班的校友聊天,他提到moe和mmoe架构论文里早已有提及,但是个人好奇为什么其他的大模型厂商没有在ds之前用这个架构?校友回答道——“你这么问就看出来你不懂”,个人又去豆包问了一遍这个问题,得到答复如下:
……
签名档
来自北大未名BBS微信小程序 (http://t.cn/A67L9Lm2)
--
>另外,关于大模型是否能用于量化交易,校友说金融数据没法训练大语音模型。【但是个人也有疑惑,如果训练集的输入数据是“事件文本+金融数据”,输出结果是资产价格,似乎逻辑上大模型用于量化预测没有障碍,反而是参数更多更可以做到无脑准确命中。】这点也想请各位同学指点一下。
问出这个问题说明你对金融的本质缺乏理解。
不妨思考一下:一个班是否可能每个人的成绩都在平均分以上?
cnhuyf (yishuitong) 在 ta 的帖子中提到:
https://xueqiu.com/8569472370/322006030 按照雪球公布的信息,幻方量化这些年都是赚钱的。按楼主说的,幻方量化已经是千亿级别私募,千亿资金一年管理费按照0.2%算的话,铁定的收入已经是2个亿。而deepseek训练成本六百万美元,即便加上硬件成本,这对于年利润上亿元的幻方量化可能不是什么难题。
deepseek做到开源,事实上个人用下来感觉豆包并不比deepseek差到哪里,个人体验豆包=deepseek>文心一言3.5 。可能ds突出的地方在于,他们不需要利用大模型本身来赚钱,开源后用户的激增是一笔不小的金库,就像当年电商干翻实体商场一样,ds也干翻了看似精明却也老实巴交制造商品的文心一言。
个人的一个疑问是,ds借助moe架构大幅减少了训练成本,今天和科班的校友聊天,他提到moe和mmoe架构论文里早已有提及,但是个人好奇为什么其他的大模型厂商没有在ds之前用这个架构?校友回答道——“你这么问就看出来你不懂”,个人又去豆包问了一遍这个问题,得到答复如下:
……
签名档
Vivu la scienco!
金口玉言,说封就封;
山呼万岁,苟且偷生。
你提到的金融本质理解,应该是无套利原理吧。2021年到2024年上证综指年度涨幅分别为4.8%、-15.13%、-3.7%、12.67%,这四年幻方量化收益为10.11%、0.38%、4.46%、12.18%。如果幻方量化用的量化模型和deepseek有渊源的话(无可靠消息源证实),ds作为大模型用于预测资产价格好像做的也可以。所谓一个班是否每个人成绩都在平均分以上,也没有证据表明在ds发布之前所有的量化机构都用了幻方量化的类似策略。即便是ds发布后,大量的量化机构用大模型去做预测,那每家机构的训练集也不尽相同,预测的结果也不一定在一个区间里。即便大量机构用大模型预测,用的训练集相近,预测结果相近,那市场中非量化机构参与者还有很多。所以不是很能明白楼上想表达的意思。
mycNoone (雪菜厨|傻狗|ky患者) 在 ta 的帖子中提到:
写都写了,姑且放这和大家分享一二
1.DeepSeek为什么成功?
(1)依托幻方量化公司,资金资本雄厚
……


