DeepSeek与字节跳动踏进同一条河DeepSeek与字节跳动踏进同一条河 \u003cdiv class=\"rich_media_content\"\u003e\u003cp style=\"text-align: center\"\u003e\u003c!--IMG_0--\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e\u003c!--AIPOS_0--\u003e新年前夕,\u003c!--VERTICAL_CARD_BEGIN_0--\u003eDeepSeek\u003c!--VERTICAL_CARD_END_0--\u003e发表了一篇聚焦神经网络架构创新的核心论文,梁文锋以通讯作者身份署名。论文提出了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e流形约束超连接(manifold-constrained HyperConnection, mHC)架构\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e,直指大规模模型训练中的稳定性难题。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e这一工作为硬件受限的中国 AI 企业开辟了一条兼顾性能与效率的路径,也与字节跳动早前在残差流优化上的探索形成关键呼应,二者均瞄准残差连接这一模型基础架构进行改造。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003eDeepSeek的研究,恰恰是对字节跳动“超连接”技术短板的系统性补位。这一成果不仅为大模型底层架构的工业化落地提供了新方案,再度印证了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e硬件约束可转化为创新动力\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e的产业演进逻辑。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e\u003c!--AIPOS_1--\u003e自2016年ResNet 提出以来,残差连接已成为深度学习的骨架式设计。其通过“捷径连接”绕过层层非线性变换,从根本上缓解了梯度消失或爆炸的难题,支撑起越来越深的模型结构。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e长期以来,业界创新多集中于注意力机制、MoE(混合专家)等模块,残差流本身处于一种“静默的稳定”中,直至2024 年字节跳动以\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e超连接(HyperConnection)技术\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e打破这一局面。\u003c!--AI_AD_1000--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e字节跳动的超连接通过\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e拓宽残差流宽度、构建多路并行信号流\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e,并让模型学习流间的交互模式,显著提升了模型表达能力。然而,该技术在规模化训练中暴露出致命短板:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e信号发散\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003eDeepSeek的测试显示,在270亿参数模型的训练中,约12000步后梯度范数剧烈波动,训练崩溃;更严重的是,信号强度在第60层膨胀至输入值的\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e3000倍\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。问题的核心在于,超连接为追求表达力,放弃了残差连接原有的恒等映射约束——小规模下尚可调参掩盖,但在大规模训练中,这一缺陷被急剧放大。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_0--\u003e\u003c!--EOP_0--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_0--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003emHC的核心创新,是将可学习的变换矩阵\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e约束在双重随机矩阵(doubly stochastic matrix)构成的流形上\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。这相当于为信号传播设立“刚性预算”:矩阵每行、每列元素之和均为1且非负,确保输出信号强度严格介于输入信号的最大最小值之间,从而杜绝信号爆炸。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_1--\u003e\u003c!--EOP_1--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_1--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e更关键的是,双重随机矩阵具有\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e组合不变性\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e——多层叠加后仍保持稳定。实验表明,在超连接出现3000倍信号放大的同一场景中,mHC的信号放大峰值仅为1.6倍。为控制计算开销,DeepSeek 采用Sinkhorn-Knopp 迭代进行投影,仅需20轮迭代即可收敛,额外训练成本被压制在\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e6.7%\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_2--\u003e\u003c!--EOP_2--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_2--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e\u003c!--AIPOS_2--\u003e硬件约束倒逼的不只是算法创新,更是全链路的系统级优化。超连接拓宽残差流后,每层数据读写量倍增,在A800/A100的有限互联带宽下,芯片极易陷入“等待数据远多于计算”的效率陷阱。DeepSeek通过三项关键技术破局:\u003c!--AI_AD_2000--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e1.算子融合:将内存访问模式相近的操作合并为单一GPU内核,减少数据搬运;\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e2.反向传播重计算:不存储中间激活值,改为实时重算,以计算换内存;\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e3.流水线并行优化:重叠跨GPU通信与本地计算,用计算掩盖通信延迟。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e这些优化将原本随层数线性增长的内存开销,转化为可由模块大小控制的有界开销。配合基于 TileLang 编写的混合精度内核(bfloat16 为主,float32 保关键精度),实现了全参数规模下的稳定性能提升。测试中,30亿至270 亿参数模型搭载mHC后均表现优异,270亿模型在BIG-Bench Hard复杂推理任务上提升 2.1%,在 DROP阅读理解任务上提升\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e2.3%\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_3--\u003e\u003c!--EOP_3--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_3--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e此前,V3架构论文对应V3模型,R1推理论文对应R1模型;本次mHC论文在 2026 年春节前三周发布,外界普遍预期下一代旗舰模型(R2)即将亮相。\u003c!--AI_AD_1001--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e这种“论文先行”的策略,既通过同行评议建立技术公信力,又在复杂地缘环境中为原创性留下时间戳,更向全球传递一个明确信息:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e中国 AI 企业的核心竞争力,并非依赖尖端算力芯片\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e\u003c!--AIPOS_3--\u003eDeepSeek选择通过arXiv、Hugging Face等开放平台而非传统期刊发布成果,虽牺牲部分学术声望,却换来了技术传播的速度与可达性。这种开放模式加速了知识扩散,也对同行构成直接竞争压力:当 mHC 的性能增益可量化、实现可复现时,西方实验室要么跟进类似技术,要么必须论证自身路径的优越性。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_4--\u003e\u003c!--EOP_4--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_4--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e此前R1 型已触发推理模型研发热潮,mHC架构很可能推动残差流优化进入新一轮迭代。更重要的是,这一模式向技术管制者传递了清晰信号:硬件限制并未扼杀创新,反而迫使中国 AI 企业走向\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e“从数学根源解决问题”\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e的最本质路径。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e字节跳动与 DeepSeek,先后踏入同一条“突破传统残差流”的创新之河。前者率先探路,却止步于规模化瓶颈;后者在硬件约束的倒逼下,凭借数学约束与系统级优化,架起了一座可通航的\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e技术之桥\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e距离2026年春节仅剩六周,R2模型的发布将检验mHC架构的工业化成色。无论最终基准测试结果如何,这条“在约束中创新”的路径已具备里程碑意义——它清晰证明,AI 竞赛不只有“烧钱堆算力”这一条赛道。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e\u003c!--AIPOS_4--\u003e硬件限制从不是创新的绊脚石,而是催生真正核心突破的催化剂。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); margin: 20px 0px 0px; padding: 0px; text-align: justify; text-indent: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 18px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: normal\"\u003e本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cdiv powered-by=\"qqnews_ex-editor\"\u003e\u003c/div\u003e\u003cstyle\u003e.rich_media_content{--news-tabel-th-night-color: #444444;--news-font-day-color: #333;--news-font-night-color: #d9d9d9;--news-bottom-distance: 22px}.rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.rich_media_content{color:var(--news-font-day-color);font-size:18px}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]):not(.qn-editor-copy){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content{color:var(--news-font-night-color)}}.data_color_scheme_dark .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.data_color_scheme_dark .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.data_color_scheme_dark .rich_media_content{color:var(--news-font-night-color)}.data_color_scheme_dark .rich_media_content{font-size:18px}.rich_media_content p[data-exeditor-arbitrary-box=image-box]{margin-bottom:11px}.rich_media_content\u003ediv:not(.qnt-video),.rich_media_content\u003esection{margin-bottom:var(--news-bottom-distance)}.rich_media_content hr{margin-bottom:var(--news-bottom-distance)}.rich_media_content .link_list{margin:0;margin-top:20px;min-height:0!important}.rich_media_content blockquote{background:#f9f9f9;border-left:6px solid #ccc;margin:1.5em 10px;padding:.5em 10px}.rich_media_content blockquote p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content blockquote{background:#323232}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content blockquote{background:#323232}}.rich_media_content ol[data-ex-list]{--ol-start: 1;--ol-list-style-type: decimal;list-style-type:none;counter-reset:olCounter calc(var(--ol-start,1) - 1);position:relative}.rich_media_content ol[data-ex-list]\u003eli\u003e:first-child::before{content:counter(olCounter,var(--ol-list-style-type)) '. ';counter-increment:olCounter;font-variant-numeric:tabular-nums;display:inline-block}.rich_media_content ul[data-ex-list]{--ul-list-style-type: circle;list-style-type:none;position:relative}.rich_media_content ul[data-ex-list].nonUnicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.5)}.rich_media_content ul[data-ex-list].unicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.8)}.rich_media_content ol:not([data-ex-list]){padding-left:revert}.rich_media_content ul:not([data-ex-list]){padding-left:revert}.rich_media_content table{display:table;border-collapse:collapse;margin-bottom:var(--news-bottom-distance)}.rich_media_content table th,.rich_media_content table td{word-wrap:break-word;border:1px solid #ddd;white-space:nowrap;padding:2px 5px}.rich_media_content table th{font-weight:700;background-color:#f0f0f0;text-align:left}.rich_media_content table p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content table th{background:var(--news-tabel-th-night-color)}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content table th{background:var(--news-tabel-th-night-color)}}.rich_media_content .qqnews_image_desc,.rich_media_content p[type=om-image-desc]{line-height:20px!important;text-align:center!important;font-size:14px!important;color:#666!important}.rich_media_content div[data-exeditor-arbitrary-box=wrap]:not([data-exeditor-arbitrary-box-special-style]){max-width:100%}.rich_media_content .qqnews-content{--wmfont: 0;--wmcolor: transparent;font-size:var(--wmfont);color:var(--wmcolor);line-height:var(--wmfont)!important;margin-bottom:var(--wmfont)!important}.rich_media_content .qqnews_sign_emphasis{background:#f7f7f7}.rich_media_content .qqnews_sign_emphasis ol{word-wrap:break-word;border:none;color:#5c5c5c;line-height:28px;list-style:none;margin:14px 0 6px;padding:16px 15px 4px}.rich_media_content .qqnews_sign_emphasis p{margin-bottom:12px!important}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{padding-left:30px}.rich_media_content .qqnews_sign_emphasis ol\u003eli{list-style:none}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep:first-child::before{margin-left:-30px;content:counter(olCounter,decimal) ''!important;counter-increment:olCounter!important;font-variant-numeric:tabular-nums!important;background:#37f;border-radius:2px;color:#fff;font-size:15px;font-style:normal;text-align:center;line-height:18px;width:18px;height:18px;margin-right:12px;position:relative;top:-1px}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis{background:#262626}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis{background:#262626}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}}.rich_media_content h1,.rich_media_content h2,.rich_media_content h3,.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{margin-bottom:var(--news-bottom-distance);font-weight:700}.rich_media_content h1{font-size:20px}.rich_media_content h2,.rich_media_content h3{font-size:19px}.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{font-size:18px}.rich_media_content li:empty{display:none}.rich_media_content ul,.rich_media_content ol{margin-bottom:var(--news-bottom-distance)}.rich_media_content div\u003ep:only-child{margin-bottom:0!important}.rich_media_content .cms-cke-widget-title-wrap p{margin-bottom:0!important}\u003c/style\u003e\u003c/div\u003e