DeepSeek联合北大发布DSpark框架：大模型推理速度提升60%–85%

界面新闻

界面新闻官方账号 06.2720:00

关注

6月27日，DeepSeek团队联合北京大学发布名为《DSpark》的研究论文（基于speculative decoding方向），提出一种用于加速大模型推理的新方法。

论文指出，现有并行“草稿生成”方式虽然能一次生成更长token，但由于token间关联不足，容易导致被拒绝比例上升，并浪费验证算力。为此，DSpark引入半自回归结构，在并行生成骨干上加入轻量级顺序模块，以增强token之间的依赖关系，提高草稿质量。

同时，DSpark提出“基于置信度的动态验证机制”，根据不同请求的成功概率与系统负载，自适应调整验证长度，从而减少无效计算开销。在离线测试中，该方法显著提升了可接受生成长度；在DeepSeek-V4线上系统中，相比基线模型，推理速度提升约60%–85%，并有效降低高并发下的吞吐损耗。

论文同时开源模型检查点与训练框架DeepSpec，以推动社区进一步研究。