高中还没毕业就改写大模型架构?这位深圳00后把马斯克都整“破防”了

温故智新AIGC实验室

TL;DR:

深圳17岁高中生陈广宇作为一作在Kimi发布重磅论文,直接“魔改”了Transformer沿用近十年的残差连接,引得马斯克亲自转发点赞。现在的00后,一边赶暑假作业,一边顺手优化了AI训练效率,这届年轻人的“AI基因”确实硬核到不讲道理。

当你还在为模拟考的数学最后一道大题抓耳挠腮时,深圳的一位17岁高三学生已经开始着手修改大模型的底层逻辑了。

近日,AI圈的一枚“深水炸弹”把不少打工人的心态炸平了。月之暗面(Moonshot AI)旗下的Kimi团队发布了一篇名为《Attention Residuals》的技术论文,其核心贡献在于对大模型标配架构Transformer进行了一次手术级别的改进。

更劲爆的是,这项工作直接引起了科技圈顶流埃隆·马斯克的注意,他在社交平台上转发并点赞,称其“令人印象深刻”1。而这篇论文的第一作者之一,正是来自深圳的高中生——陈广宇。

技术大揭秘:他到底动了谁的“蛋糕”?

在AI界,Transformer架构里的“残差连接”(Residual Connection)就像是建筑里的承重墙。自2017年提出以来,几乎所有主流大模型(如GPT、Llama、Kimi)都在用它2

简单来说,残差连接就像是一个“传声筒”,为了防止信号在多层神经网络中衰减,它会把前面的原始信息直接搬运到后面。但问题在于,这种搬运是“无差别”的。随着模型越堆越深,早期的关键信息会被后期的海量数据稀释,造成不可逆的信息损失1

“这就好比你搬砖上楼,每上一层都要背上前面所有楼层的砖,最后顶层的砖太多太杂,你反而忘了底层那块最重要的金砖放哪了。”

陈广宇和Kimi团队提出的**“注意力残差”(AttnRes)**,直接给这个过程加了个“智能过滤器”3。他们用softmax注意力机制取代了死板的固定累加,让模型在每一层都能主动从过去的所有层里,像挑菜一样筛选出最有用的信息。

更绝的是,他们还搞出了一个**“Block AttnRes”(分块注意力残差)**的设计,在保留效果的同时,硬生生把额外的计算成本压了下来2。实验数据显示,这套方案让模型学会了“选择性记忆”,模型训练效率直接起飞了25%,而推理延迟的增加甚至不到2%1

最关键的是,这个方案是“即插即用”的(drop-in replacement),你不需要大改网络结构,换个“连接器”就能原地升级4。这种性价比,难怪马斯克也要转发支持。

“AI原生代”:17岁的打工人与他的CEO思维

陈广宇的故事,听起来像是一部标准的“天才少年”爽剧。

出生于2009年的他,履历丰富得不像个高中生:组织过青少年开源社区,做过Crypto机器人,甚至还想过当职业滑雪运动员。转折发生在去年2月的一场黑客松,他带着“人类第三只机械辅助手”项目引起了前奇绩创坛成员董科含的注意,对方给了他一个硬核建议:“去折腾更前沿的技术”2

接下来的剧情,完美诠释了什么是“AI原生代”的学习方式:

  • 拒掉“老古董”课程:他认为跟着十年前的视频课按部就班太慢,直接利用AI读论文、刷GitHub,把AI当成最好的导师。
  • 硅谷实习与“CEO心态”:暑假跑去旧金山实习,董科含告诉他:“别把自己当实习生,要当CEO。如果是你的公司,你会怎么做?”2 这种心态让他不仅钻研技术,还开始思考融资、战略和长期目标。
  • 入职Kimi变身一作:去年11月加入月之暗面,半年后就拿出了惊艳全球的成果。

面对爆火,这位少年的表现冷静得近乎冷酷。他在社交平台上发完“可能改变大语言模型历史”的感叹后,转头就留下一句:“感慨完毕,回归正事。”2 这种属于00后的松弛感和专注度,确实让很多还在摸鱼的职场老人感到一阵凉意。

为什么又是深圳?“X”爆发后的创业新物种

陈广宇的走红,其实是深圳这一波“00后创业潮”的一个缩影。

在深圳南山区的“西丽湖路演社”,你会发现讲台上站着的早已不是大腹便便的传统老板,而是像李宜哲(零次方机器人创始人)、张宇诺(宇灵无限创始人)这样不满25岁的面孔2

这些“新物种”创业者有着极其鲜明的特征:

  1. 不再迷信“大厂履历”:相比于在大厂拧螺丝,他们更看重GitHub的Star数和论文的被引频次。
  2. 效率狂魔:在深圳,一个代码变Demo的过程可能只需要半小时——那是从南山实验室到华强北柜台的物流距离2
  3. 全球视野:从第一天起,他们的产品就是面向全球市场的。

深圳现在的创新土壤,正在用一种名为“X”的力量(象征未知与无限可能)托举起这群年轻人。无论是李泽湘创办的科创学院,还是南山那些“没有围墙的大学城”,都在为这群AI原生代提供快速试错的闭环2

当这群00后开始站在巨人的肩膀上,甚至开始试图重塑巨人的“承重墙”时,我们不得不承认:这一轮AI浪潮,真的被这群不走寻常路的年轻人接住了。

引用


  1. 馬斯克點讚月之暗面Kimi 突破性論文!作者之一竟只是17 歲高中生·TechNews·Unwire HK(2026/3/23)·检索日期2026/3/25 ↩︎ ↩︎ ↩︎

  2. 一位深圳00后意外爆红·投资界AI·王露(2026/3/25)·检索日期2026/3/25 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  3. kimi: Attention Residuals论文解读·知乎专栏(2026/3/25)·检索日期2026/3/25 ↩︎

  4. Kimi新架构让马斯克叹服!17岁高中生作者一战成名·知乎专栏(2026/3/25)·检索日期2026/3/25 ↩︎