###TL;DR
一个在读研究生,自费烧掉一个Claude Max套餐,搞出两个本地能跑的GGUF模型,硬生生把智谱、百度、NVIDIA踩在脚下,登上HuggingFace Trending榜第一。下载量70万+,秘诀就俩字:真诚,外加一点ADHD。
你每天刷HuggingFace热榜时,大概率会看到什么?GLM-5.2、百度无限OCR、Qwen AgentWorld、英伟达LocateAnything……一堆大厂和明星团队的名字,卷得飞起。
但就在这一排金光闪闪的ID中间,突然蹦出一个画风清奇的账号:yuxinlu1。
嗯……嗯?!
再一看下载量——20.7万、53.6万。好家伙,这数据比很多大厂新模型还猛。甚至此前一周,这个个人账号一度霸榜,把GLM-5.2按在地上摩擦,连智谱负责人都跑到X上公开推荐。1
离谱。但这就是2026年6月28号,真实发生的事。
他到底做了什么?把Fable 5的脑子塞进Gemma 4的壳里
逯雨鑫(没错,yuxinlu1就是他的真名),美国某高校AI方向研究生,本科读的是数据与商业分析,中间还跑去补了全栈开发。听起来就是个普通的技术宅,对吧?
但他的模型可不普通。
两个爆款模型都基于Google的Gemma4-12B,但被他用GGUF量化成了本地可跑的版本。最小才4.5GB,一张消费级显卡或带统一内存的Mac就能跑。关键是,他把一个叫Fable 5的编程推理能力,通过蒸馏塞进了这个小模型里。
具体怎么做的?他搞了两套方案:
- V1(Coder版):专攻写代码、解题。训练数据是“可验证的代码推理”——每条思维链对应的代码得真跑过测试、通过了才留下。教师数据主要来自Cursor的Composer 2.5和Fable 5,后者被下线后,他硬是用Claude Opus 4.8一条条重新生成了缺失的推理轨迹。
- V2(Agentic版):加了多步工具调用,能当本地Agent用。在tau2-bench telecom子集上,基座Gemma4-12B得分15%,V2直接干到55%,翻了3.5倍。
他说,整个训练数据只有约1万条examples。“数据量不重要,真正关键的是质量、筛选和验证。”2
40小时,烧掉一个Claude Max套餐,换来70万下载
你可能会想:这哥们是不是有矿?答案是:他自费掏钱,烧光了整整一个Claude Max 20×套餐。光是V2就花了40多个小时。硬件上他只靠一张RTX 5090(32GB VRAM)加96GB本地SSD,总资源约128GB——跟大厂的算力池比,简直像拿着木棍进战场。
但最耗时的不是训练,而是数据处理。尤其是agentic数据,真实对话长到十几步、上万token。而他显存有限,一次只能喂2048 token。于是他做了个“滑动窗口”处理:以最近一次用户消息为锚点,围绕一次工具调用,把上下文裁到预算以内。
“很多人使用的电脑还是8GB左右的统一内存,我想在最大可能参数量下让更多人用上。”3
这就是他选Gemma4-12B的原因——量化到3bit后,8GB Mac也能跑。
真诚、坚持,以及“AI时代是ADHD的天下”
模型火了之后,逯雨鑫每天花三四个小时回复HuggingFace上的评论和issue。他几乎每条都看,实测反馈然后告诉对方。
“社区有需求,我是真的在去做,这才是最关键的。”
被问到个人开发者凭什么能杀进大厂前排,他的回答很实在:大厂当然能做得更好,但他们发布开源小模型还要承担品牌宣传、API引流等包袱。个人开发者没有这些,可以更专注地解决一个具体痛点。
他补充了一句名言式金句:“我很高兴,但不是说真的全面打败了他们,只是可能更认真一些。”
哦对了,他还有ADHD(注意力缺陷多动障碍)。过去这可能是劣势,但在AI这个变化极快的领域,快速切换兴趣、进入hyperfocus反而成了优势。他甚至直言:“AI时代是ADHD的天下。”
聊到最初做模型的动机,他说自己其实是个网文爱好者。最早在HuggingFace上发布的是中文网文LoRA(分了四个题材),因为追小说追太急,想帮作者提速。后来发现编程和agentic方向更受欢迎,才转了向。
本地模型的胜利:隐私、免费、不绑架钱包
为什么这两个模型能火?背后是一个很朴素的道理:本地能跑,不香吗?
写代码、看仓库、调bug,经常涉及私有项目。你不想把代码传到云端,也不想每个月给Claude、GPT交保护费。逯雨鑫把本地模型的价值总结成两个词:隐私,免费。
“人可能就是想玩一玩,为什么非得要收费呢?”
他的V1模型最小4.5GB(Q2_K),推荐Q4_K_M约6.87GB,高配Q8_0约11.8GB。V2最小可靠版本从Q3_K_M开始,约5.7GB。兼容llama.cpp、Ollama、LM Studio、Jan等工具,几乎零门槛。
目前最适配的平台是llama.cpp,他也提前剧透了V3已经在路上,并且还在做一个更大的版本:Qwen3.6-27B,给显存更宽裕的用户用。
所以,这给个人开发者什么启示?
逯雨鑫的故事告诉我们:开源这条路,本来就不容易。就算登顶HuggingFace热榜,也不会直接带来收入。更多时候是自己花钱买算力、花时间处理数据、回复评论、修bug,还要面对少数的负面声音。
但他坚持下来,靠的就是俩字:真诚(不吹牛,强就是强弱就是弱)和坚持(遇到质疑也不退)。大厂有资源,但个人有专注;大厂有包袱,但个人有自由。
你在自己的电脑上就能跑一个比Gemma原版强3.5倍的编程Agent,而且不用联网、不用付费、不用把代码传给别人。
这,大概就是2026年最酷的开源故事之一。