TL;DR:
杨红霞,前阿里、字节大模型核心人物,如今在香港创立InfiX.ai,致力于通过“去中心化”和“模型融合”技术,革新大模型训练范式,让AI普惠中小企业与研究机构。她以不惧挑战的精神,选择在医疗等高难度领域深耕,坚信技术的纯粹与突破是商业成功的基石。
2024年7月,当“前阿里、字节大模型带头人杨红霞”的名字再次出现在公众视野时,伴随的不仅是她离职创业的传闻,更有一股凛冽的质疑:“入局太晚,创业公司怎么和大厂争?”然而,杨红霞,这位在中国大模型赛道上留下深刻印记的拓荒者,从未停止挑战。一年零三个月后,她带着新公司InfiX.ai,以一种看似“离经叛道”的姿态,再次杀回大模型赛道,目标直指革新大模型的训练与落地范式。在香港,与《智能涌现》的一次线上交流中,她沉静而坚定地勾勒出她心中的宏大蓝图:让通用人工智能,从少数顶尖玩家的算力竞赛,蜕变为一场“全民协作”。
从统计学到AI前沿:挑战精神的萌芽与淬炼
杨红霞的挑战精神并非一日之功,而是根植于其深厚的学术背景和多元的职业历程。她最初并非计算机科班出身,而是在南开大学统计系打下了坚实的数学基础,而后远赴美国杜克大学攻读统计科学博士,师从著名统计学最高奖“考普斯会长奖”得主戴维·邓森(David Dunson)。1 在贝叶斯统计领域的前沿探索,将统计学与机器学习相结合,为她日后在AI领域的深耕奠定了理论基石。她曾坦言:“我强烈建议年轻学生在本科阶段认真学习这些看似艰深但至关重要的基础课程。”1
博士毕业后,她在IBM全球研发中心沉浸四年,如同“又经历了一次博士阶段的学习”,吸收着前沿研究的养分。随后,互联网技术浪潮席卷而来,她被硅谷雅虎的搜索、推荐、广告等核心技术深深吸引,毅然转型担任首席数据科学家。回顾这段经历,她认为:“每一步都在解决科技领域的核心问题,这让我对大模型和生成式人工智能有了更深刻的理论和实践理解。”1
带着这份沉甸甸的经验,杨红霞回国加入了互联网大厂。在阿里早期,她就展现出鲜明的挑战者姿态,从当时最受瞩目的搜索推荐系统,投身于初期并不被普遍看好的大模型研究。在那里,她带领林俊旸、周畅等一批日后中国大模型领域的核心人才,在达摩院磕出了“通义千问”的前身——M6大模型。她在字节跳动继续深耕,站在“中心化”大模型研发的最前沿。这段在大厂的经历,让她深谙“中心化”模式的巨大能量:“中心化将所有资源都聚集在了一起,所以它减少了一些技术上的挑战,一定会带来重大的技术突破。”
“去中心化”的觉醒:从技术突破到普惠落地
然而,正是这段深度的“中心化”实践,让杨红霞在2023年中开始,逐渐形成了对未来AI发展路径的“原始判断”。她发现,尽管“中心化”模型带来了前所未有的技术突破,但在实际落地,尤其是在高精尖领域、中小企业、医院和政府机构的本地化部署中,却面临巨大的“鸿沟”。
“模型知识的注入只发生在预训练阶段,后训练提供的是规则。”她用一个精妙的比喻解释道:“就好比,预训练一段是8年制的医学博士生涯,后训练则是临床实习的过程。”
这意味着,对于数据敏感的企业,仅仅基于“中心化”模型进行微调,并不能真正注入领域知识,导致“幻觉”频发。面对搜索推荐等超大流量场景下千亿参数模型难以承受的吞吐压力,以及不同企业数据难以共享的困境,杨红霞敏锐地意识到:
“大模型要落地,不能只依赖少数巨头机构,必须基于诸多企业数据预训练;为了让企业也能做预训练,必须要降低所消耗的资源。”
这一洞察,在当时国内仍普遍信奉“大力出奇迹”的大模型赛道中,显得有些“边缘”。但她坚信,在垂直领域,30亿、70亿、130亿等小尺寸模型,完全可以超越1.6万亿参数的“中心化”巨兽。到2024年中,这一结论得到充分验证,甚至被MIT Tech Review列为当年的十大突破性技术之一。
InfiX.ai的技术破局:低比特与模型融合的创新范式
围绕“降低资源消耗”和“领域数据预训练”这两个核心判断,InfiX.ai推出了一系列创新技术,旨在构建一个“去中心化”的AI生态:
- 低比特模型训练框架 InfiR2 FP8:相较于行业主流的FP16/BF16精度,InfiR2 FP8在模型性能几乎无损的前提下,显著提升训练速度,最高可达22%,并节省最高14%的显存消耗。这为低资源训练提供了核心工具。
- 模型融合技术 InfiFusion:这项革命性技术允许不同尺寸、不同结构的领域“专家模型”通过融合,打造融汇多领域知识的大模型,从而避免重复训练造成的巨大资源浪费。杨红霞团队的独特之处在于实现了异构模型融合,这比Sakana AI等同类公司聚焦的同构融合更具挑战性。2
- 医疗多模态大模型训练框架 InfiMed:InfiMed旨在让基于小规模数据和算力训练的模型,在多项医学任务中展现强大推理能力。例如,其InfiMed-RL-3B模型在七大医疗基准测试中显著优于谷歌同尺寸的MedGemma-4B-IT。
- 多智能体系统 InfiAgent:该系统能自动为复杂任务分解和分配,降低Agent系统开发门槛和成本。
杨红霞将技术的落地领域,首先聚焦在了“医疗”这个“难啃的骨头”,并且范围缩小到最难攻克的癌症领域。她告诉《智能涌现》:
“一定要选一些特别有挑战的领域,让模型能力真正有区分度,证明我们的模型在这个领域是最好的。”
这不仅是对技术实力的自信,更是她一以贯之的“做难事、做有价值的事”的信念体现。目前,InfiX.ai已与北京协和医院、浙江省肿瘤医院等顶尖医疗机构展开深度合作,开发用于癌症识别的医疗大模型。1
香港的战略抉择:人才、资金与产学研的沃土
2024年5月从字节跳动离职后,杨红霞做出了一个令许多人意外的决定——加入香港理工大学,担任电子计算机学系教授。这个选择并非偶然,在她看来,前往香港是一个“极具性价比”的决定。
“香港在人才吸引力方面优势尤为显著。在全球任何一个城市都没有这么高的人才密度。”1
香港面积不大,却拥有8所世界知名大学,其中5所在QS排名全球前100,这为InfiX.ai快速组建一支40人规模的精锐团队提供了沃土。此外,香港特区政府推出了一系列丰厚的产学研项目和算力补贴,例如“RAISe+(产学研1+计划)”提供巨额资金且不占股份,香港数码港超算中心的人工智能资助计划则提供高达70%的算力减免折扣,而InfiX.ai更是史无前例地获得了90%的减免。1 加入港理工,也为她提供了在大厂难以实现的跨学科研究合作的自由度,她认为“生成式AI下一个突破点,其实正蕴藏在大学顶尖的学科领域和跨学科的交互中。”1
在人才观上,杨红霞强调“人的质量才是关键”。她的团队虽仅有40人,但对代码能力、好奇心和协作精神有着极高的要求。她鼓励团队成员“数据、算法、AI Infra端到端都要做”,让他们在创业公司灵活的环境中获得远超大厂的成长速度。
纯粹的技术信仰:通往“全民协作AGI”的道路
尽管InfiX.ai的商业化已在逐步启动,潜在客户众多,但杨红霞始终保持着对技术纯粹的信仰和非凡的耐心。她引述OpenAI长达七年、没有任何商业化的早期探索,以及国内DeepSeek团队对技术极致的追求,来强调这份坚持的价值。
“如果没有耐心,哪怕你很快起来、看上去很风光,其实钱很快就烧完了,也没有什么产出。”
她将InfiX.ai的融资过程视为对“去中心化”理念的外部验证。尽管最初需要大量解释,但在前OpenAI CTO Mira Murati成立Thinking Machines Lab,并实现20亿美元种子轮融资、估值120亿美元的消息传出后,质疑声迅速消退。InfiX.ai的第二轮融资仅耗时两周便超额完成,估值数亿美元,远低于TML,杨红霞却表示“我不需要这么多融资,尤其我们现在走的是低资源训练的路。”
在杨红霞描绘的图景中,未来每家公司和机构都将拥有自己的专家大模型,不同领域的专业模型可以融合,甚至跨国界的知识也能融合,最终形成全球化的领域基础大模型。她总结道:
“通用人工智能(AGI)不应成为一场仅限于顶尖玩家的算力竞赛,未来会成为一场‘全民协作’。”
这位AI拓荒者,正以其深刻的洞察、不懈的挑战精神和对技术普惠的坚定信仰,在香港这片沃土上,书写着AI发展的新篇章,引领我们走向一个更开放、更协作、更普惠的智能未来。