一个人干翻大厂？他靠一个12B模型杀穿HuggingFace热榜，连智谱都点赞

###TL;DR

一个在读研究生，自费烧掉一个Claude Max套餐，搞出两个本地能跑的GGUF模型，硬生生把智谱、百度、NVIDIA踩在脚下，登上HuggingFace Trending榜第一。下载量70万+，秘诀就俩字：真诚，外加一点ADHD。

你每天刷HuggingFace热榜时，大概率会看到什么？GLM-5.2、百度无限OCR、Qwen AgentWorld、英伟达LocateAnything……一堆大厂和明星团队的名字，卷得飞起。

但就在这一排金光闪闪的ID中间，突然蹦出一个画风清奇的账号：yuxinlu1。

嗯……嗯？！

再一看下载量——20.7万、53.6万。好家伙，这数据比很多大厂新模型还猛。甚至此前一周，这个个人账号一度霸榜，把GLM-5.2按在地上摩擦，连智谱负责人都跑到X上公开推荐。¹

离谱。但这就是2026年6月28号，真实发生的事。

逯雨鑫（没错，yuxinlu1就是他的真名），美国某高校AI方向研究生，本科读的是数据与商业分析，中间还跑去补了全栈开发。听起来就是个普通的技术宅，对吧？

但他的模型可不普通。

两个爆款模型都基于Google的Gemma4-12B，但被他用GGUF量化成了本地可跑的版本。最小才4.5GB，一张消费级显卡或带统一内存的Mac就能跑。关键是，他把一个叫Fable 5的编程推理能力，通过蒸馏塞进了这个小模型里。

具体怎么做的？他搞了两套方案：

V1（Coder版）：专攻写代码、解题。训练数据是“可验证的代码推理”——每条思维链对应的代码得真跑过测试、通过了才留下。教师数据主要来自Cursor的Composer 2.5和Fable 5，后者被下线后，他硬是用Claude Opus 4.8一条条重新生成了缺失的推理轨迹。
V2（Agentic版）：加了多步工具调用，能当本地Agent用。在tau2-bench telecom子集上，基座Gemma4-12B得分15%，V2直接干到55%，翻了3.5倍。

他说，整个训练数据只有约1万条examples。“数据量不重要，真正关键的是质量、筛选和验证。”²

你可能会想：这哥们是不是有矿？答案是：他自费掏钱，烧光了整整一个Claude Max 20×套餐。光是V2就花了40多个小时。硬件上他只靠一张RTX 5090（32GB VRAM）加96GB本地SSD，总资源约128GB——跟大厂的算力池比，简直像拿着木棍进战场。

但最耗时的不是训练，而是数据处理。尤其是agentic数据，真实对话长到十几步、上万token。而他显存有限，一次只能喂2048 token。于是他做了个“滑动窗口”处理：以最近一次用户消息为锚点，围绕一次工具调用，把上下文裁到预算以内。

“很多人使用的电脑还是8GB左右的统一内存，我想在最大可能参数量下让更多人用上。”³

这就是他选Gemma4-12B的原因——量化到3bit后，8GB Mac也能跑。

模型火了之后，逯雨鑫每天花三四个小时回复HuggingFace上的评论和issue。他几乎每条都看，实测反馈然后告诉对方。

“社区有需求，我是真的在去做，这才是最关键的。”

被问到个人开发者凭什么能杀进大厂前排，他的回答很实在：大厂当然能做得更好，但他们发布开源小模型还要承担品牌宣传、API引流等包袱。个人开发者没有这些，可以更专注地解决一个具体痛点。

他补充了一句名言式金句：“我很高兴，但不是说真的全面打败了他们，只是可能更认真一些。”

哦对了，他还有ADHD（注意力缺陷多动障碍）。过去这可能是劣势，但在AI这个变化极快的领域，快速切换兴趣、进入hyperfocus反而成了优势。他甚至直言：“AI时代是ADHD的天下。”

聊到最初做模型的动机，他说自己其实是个网文爱好者。最早在HuggingFace上发布的是中文网文LoRA（分了四个题材），因为追小说追太急，想帮作者提速。后来发现编程和agentic方向更受欢迎，才转了向。

为什么这两个模型能火？背后是一个很朴素的道理：本地能跑，不香吗？

写代码、看仓库、调bug，经常涉及私有项目。你不想把代码传到云端，也不想每个月给Claude、GPT交保护费。逯雨鑫把本地模型的价值总结成两个词：隐私，免费。

“人可能就是想玩一玩，为什么非得要收费呢？”

他的V1模型最小4.5GB（Q2_K），推荐Q4_K_M约6.87GB，高配Q8_0约11.8GB。V2最小可靠版本从Q3_K_M开始，约5.7GB。兼容llama.cpp、Ollama、LM Studio、Jan等工具，几乎零门槛。

目前最适配的平台是llama.cpp，他也提前剧透了V3已经在路上，并且还在做一个更大的版本：Qwen3.6-27B，给显存更宽裕的用户用。

逯雨鑫的故事告诉我们：开源这条路，本来就不容易。就算登顶HuggingFace热榜，也不会直接带来收入。更多时候是自己花钱买算力、花时间处理数据、回复评论、修bug，还要面对少数的负面声音。

但他坚持下来，靠的就是俩字：真诚（不吹牛，强就是强弱就是弱）和坚持（遇到质疑也不退）。大厂有资源，但个人有专注；大厂有包袱，但个人有自由。

你在自己的电脑上就能跑一个比Gemma原版强3.5倍的编程Agent，而且不用联网、不用付费、不用把代码传给别人。

这，大概就是2026年最酷的开源故事之一。

抱抱脸模型TOP榜，我现在只服yuxinlu1·量子位·36氪授权发布（2026/6/28）·检索日期2026/6/28 ↩︎
Explore the full model details here: yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF · Hugging Face（2026/6/28）·检索日期2026/6/28 ↩︎
Gemma-4-12B：Google 新开源的本地多模态模型，关键不只是“12B”·知乎专栏（2026/6/28）·检索日期2026/6/28 ↩︎