梁文锋参与著作!DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效
原创
2025-02-18 12:47 星期二
科创板日报 宋子乔
①新注意力架构NSA专为长文本训练与推理设计;
②DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二;
③论文一作为北大在读硕士研究生、DeepSeek实习生。

《科创板日报》2月18日讯(编辑 宋子乔) 2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)。

image

NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。

image

其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

资料显示,袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目,该项目旨在通过强化学习激励大型语言模型的推理能力。

image

在论文中,DeepSeek团队表示,随着大型语言模型的发展,长上下文建模变得越来越重要,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径,其核心创新在于:

1)动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择,既保证全局上下文感知,又兼顾局部信息的精确性。

2)硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化,显著提升计算速度,同时支持端到端训练,减少预训练计算量。

实验表明,NSA不仅在通用任务和长上下文任务中表现出色,还在链式推理等复杂任务中展现了强大的潜力,且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中,NSA的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,其以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

收藏
98.67W
我要评论
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
评论(27)
cls-yqev3p3个月前 · IP未知
杭锦科技
(10)
回复0条回复
cls-51ke8b3个月前 · 广东
人才辈出
(10)
回复0条回复
cls-mk675y3个月前 · IP未知
没用了,马思克的GrOK3出来了,秒了Ds
(6)
回复8条回复
水木芳华回复cls-mk675y3个月前 · IP未知
(6)
回复
10万块顶级卡只多跑2%的分?还是可以作弊的跑分系统😛 
明空77回复cls-mk675y3个月前 · 江西
(5)
回复
21世纪了,怎么还有国外的月亮比国内圆
人善天不欺回复cls-mk675y3个月前 · 安徽
(2)
回复
秒个毛线 你没有看全程直播吗
涨不停了呢回复cls-mk675y3个月前 · 浙江
(2)
回复
三变科技、博创两只股票就在马斯克发布后暴跌。还不明白???
cls-57rn8b回复cls-mk675y3个月前 · IP未知
(3)
回复
马斯克那个已经实锤了,不及预期
坚定的多头回复cls-mk675y3个月前 · IP未知
(5)
回复
grok3有人已经鉴定完毕了,人工智障
初心initialheart回复明空773个月前 · 河北
(0)
回复
商人,明星,怎么很多去国外了呢,他们是去看月亮的?
cls-2fhzdj回复cls-mk675y3个月前 · IP未知
(0)
回复
马斯克那个那么牛,为何不早拿出来,还是在炒冷饭,不带Ds,他都上不了热搜!不及预期啊
cls-wg43qg3个月前 · IP未知
不用再吹ds了 现在再出来吹无非是庄家今没来得及出货而且
(3)
回复0条回复
cls-oifnht3个月前 · IP未知
只招天才
(3)
回复0条回复
何以至此553个月前 · 广东
中国几十年来的,脚搭实地,厚积薄发,现在终于初现成果了。作为普通人,我们或许也能在这其中吸取一些待人待事的道理。福祸相依,不能松懈,要趁着这股意气风发,自信满满,去勇攀高峰。上为人民留下福祉,下为个人留下荣耀与财富。
(2)
回复0条回复
矮股3个月前 · IP未知
国子软件
(1)
回复0条回复
cls-jp1gof3个月前 · 辽宁
日海智能错杀?
(0)
回复0条回复
cls-o9ibvv3个月前 · 浙江
神宇股份
(0)
回复0条回复
股海迷徒之蛮吉3个月前 · 河南
杭钢和梦网你们看到了没有!😢 
(0)
回复0条回复
A市场专杀3个月前 · 广东
(0)
回复0条回复
低调的过小日子3个月前 · 浙江
(0)
回复0条回复
骑马入长安3个月前 · IP未知
厉害
(0)
回复0条回复
BEYOND503个月前 · IP未知
牛气冲天
(0)
回复0条回复
cls-bsk53f3个月前 · IP未知
杭齿前进,东华,南兴
(0)
回复0条回复
cls-13083773个月前 · 北京
11
(0)
回复0条回复
cls-13083773个月前 · 北京
11
(0)
回复0条回复
996牛马3个月前 · 重庆
接着奏乐,接着舞
(0)
回复0条回复
cls-18151963个月前 · IP未知
给他提供算力的航锦科技又要反包了,微信接入,算力不够了
(0)
回复0条回复