BAT三巨头凑齐!AI语音输入法神仙打架,我的嘴终于比手快了

温故智新AIGC实验室

TL;DR:

阿里千问团队被曝即将推出手机输入法APP,继微信和豆包之后,BAT三巨头在输入法赛道正式“团聚”。这次不再是塞满花里胡哨功能的AI大杂烩,而是回归到“用嘴打字”的语音输入本质。当识别准确率飙升到让你懒得纠错,当AI能替你删掉“嗯嗯啊啊”这些废话,一个属于“嘴强王者”的新风口,悄悄站起来了。

朋友们,上次科技圈三巨头这么整齐地出现在同一个赛道,可能还是他们抢着发“大模型”的时候。

现在,剧本重演了。只不过这次的主角,从聊天机器人变成了那个我们每天戳几百次、低调到尘埃里的——输入法

先来一个新鲜热乎的“瓜”:据可靠消息[^1],阿里千问团队即将推出一款独立的手机输入法APP。这不是之前PC端那个小插件,是正儿八经的移动端应用。消息一出,圈内人就笑了——好家伙,BAT(字节跳动、阿里、腾讯)这下是真的凑齐了。

微信输入法和豆包输入法在AI语音输入上已经打了好几个回合[^2]。如今千问加入战局,这场“嘴炮大战”正式进入白热化。

以前的语音输入是“听写员”,现在是“灵魂写手”

你可能要问:输入法不是早就被搜狗、讯飞玩透了吗?九宫格、全键盘、五笔、手写……还能玩出什么花?

答案很简单:以前是工具,现在是AI。 以前是“物理输入”,现在是“意念输出”。

两年前,各大输入法也跟风塞了一堆AI功能,什么AI聊天、AI写作、AI翻译,恨不得把Chatbot整个搬进键盘里。结果呢?用户吐槽:“我就是想打个字,你给我整这么多花活,卡得要死。”[^3]

但这一波“语音输入”,大厂们突然想通了。

他们不再折腾那些花里胡哨的“AI外包功能”,而是把AI注入了输入本身。以前的语音输入像个刚入职的实习生——你说一句,他记一句,记错了还得你亲自改。现在的大模型语音输入,像个干了十年的老秘书——

  • 你口齿不清?AI通过上下文猜对你要说的字。
  • 你中英文混着说?AI能自动区分“Sora”和“死哦啦”。
  • 你满嘴“嗯嗯啊啊那个这个”?AI一键给你删了,只留下干货。
  • 你说完一大段,AI甚至帮你把标点符号和分段都排好了。

用一个词形容:离谱。

根据“雷科技”的横评测试[^4],豆包输入法的实时转写已经能做到“边说边出字”,前面识别错了,后面听完语境还能自动修正。微信输入法在最近一次更新后,也升级了大模型,主打一个“去口水词”和“智能加标点”。

门槛被AI踏平了。 以前语音输入错一个字我就切回手打了,现在错率低到“懒得改”,这体验升级,简直是降维打击。

微信稳、豆包快、千问急:三家打的什么算盘?

既然同台竞技,咱就掰扯掰扯这三家的“人设”。

  • 微信输入法:最稳的老大哥。 它的核心优势从来不是技术最牛,而是生态最全。跨设备粘贴同步、剪贴板管理、表情包推荐……你日常输入里90%的痛点,它都默默解决了。它的语音输入不是最快的,但综合体验最让人“离不开”。

  • 豆包输入法:速度狂魔。 靠字节跳动的AI底子,豆包把“实时转写”做到了极致。在户外、地铁这种嘈杂环境,它的识别速度和准确率都是第一梯队。唯一的问题是个“新兵”的通病——产品细节还差点火候,比如账号同步、跨设备剪贴板这些基础功能还在补课[^5],让人有点“技术满分,产品不及格”的惋惜。

  • 千问输入法:来势汹汹的搅局者。 千问在PC端已经证明了自己在语音输入上的实力。它的特点是“慢工出细活”——输出速度(需要等3-6秒)虽然比豆包慢,但准确率和口语规整度表现非常顶[^4]。如果这些能力完整移植到手机上,再加上阿里系电商、支付、办公的庞大生态,千问输入法绝对是一张不能小看的底牌。

用嘴打字,会成为主流吗?

我的答案是:会,但不会100%取代键盘。

想想看,你在地铁里、走在路上、躺在床上,语音输入是不是比敲屏幕爽多了?斯坦福大学2016年的研究就证实过,中文语音输入的速度(123词/分钟)是拼音键盘(43词/分钟)的近3倍[^3]。

而且,语音输入天然适合跟AI交互。你跟DeepSeek、Kimi说话,用嘴说总比一个字一个字敲快。输入法这个入口,正在从“文字输入工具”变成“意图输入接口”。

当然,也有Bug。

苹果iOS上,第三方语音输入法的体验依然一言难尽,因为权限问题,每次用都得跳转App,非常“反人类”[^5]。另外,办公室里你对着手机口若悬河地发语音,可能会收获同事关爱智障的眼神。

但趋势已经很明显了。当“用嘴打字”的准确率超过99%,当AI能帮你整理好所有废话,谁还愿意当“码字民工”呢?

输入法从来离用户最近。 这一次,AI让它离用户的“脑子”也更近了。

乔布斯那句话,放今天依然适用

“你必须先从用户出发,再反推需要什么技术。”

AI可以提供各种可能性,但用户每次打开键盘,只是想快速、准确地说完一句话。能力可以很多,但交互必须很轻。 如果输入法变成了一个功能臃肿的“瑞士军刀”,那它就离被卸载不远了。

所以,最后的问题交给了千问:你准备的这把“移动端钥匙”,是能让用户顺畅“开口说话”,还是又一把堆满功能的“智能军刀”?

我们搬好小板凳,吃瓜围观。