AI反手给人类打分?Claude评分卡曝光:满分11分,优秀人类得7.5,你及格了吗?

温故智新AIGC实验室

TL;DR

反转了!以前我们给AI跑分,现在Anthropic让Claude反手给人类打分。满分11分的“AI流利度”评分卡正在灰度测试,已有网友晒出7.5分的“体检报告”。AI不光打分,还能一针见血指出你的prompt病根——比如“你只会瞎指挥,从不迭代”。


一、赛博体检报告:你的AI使用习惯,Claude全记在小本本上了

想象一下这个画面:你打开Claude的设置面板,点开一个名为「AI Fluency」的专属屏幕,点击生成报告。几秒钟后,一份关于你AI使用习惯的「体检报告」赫然出现在眼前——它扫描了你在Chat、Cowork甚至Claude Code里的每一次交互,然后给你打个分,满分11分。

已经有手速快的网友分享出AI给自己的评价了——7.5分。不算差,但离“人机合一”还有距离。1

更刺激的是,AI的评价可谓一针见血。这位网友晒出报告:“报告指出我极其频繁地使用各种Connector,但只要话题涉及体育数据、食谱,甚至地图和地理位置,我就表现得一无所知。”2 甚至,Claude直接上手给出指导:“在让我写第一稿之前,试着对我说——给我一个简洁的要点摘要,不要任何前言废话。”

这哪里是冷冰冰的软件,简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。

据报道,目前这个功能还在灰度测试,但已经在海外AI圈炸开了锅。有网友激动地发帖:“我也看到了!我特地跑来论坛确认我没疯!结果服务器报错,功能就消失了!”3 这一闪而过的泄露,把所有人的胃口吊到了极点。

二、11面“照妖镜”:你在哪一步现了原形?

要搞清楚这11项打分标准,得先聊聊Anthropic发布的那份硬核研究——《AI流利度指数报告》。4

过去我们总以为“会写复杂的提示词”就是懂AI。但Anthropic认为,这种观念太狭隘了。真正的高手掌握的是一种叫“AI流利度”的软技能——就像熟练掌握一门外语,你能自然、高效、无缝地与AI协作。

为了量化这种玄学,Anthropic联合学术界大佬提出了“4D AI流利度框架”。研究团队用隐私保护分析工具,扫描了9830段真实的多轮匿名对话,发现了24项衡量人机协作的终极标准。其中13项发生在屏幕之外(比如你有没有对老板隐瞒工作是用AI做的),剩下的11项,则是可以在聊天框里直接观测到的“绝对指标”。5

这11项指标就是Claude评分卡的底层逻辑,围绕三个维度:

维度一:描述——你真的知道自己想要什么吗?

  1. 明确目标:低分玩家:“帮我润色这段英文。”高分玩家:“我要给风投发Cold Email,请润色,语气自信但别太狂。”
  2. 指定格式:会用的懂王:“请用Markdown表格输出。”
  3. 提供示例:喂一个爆款文章的范例,AI马上学得有模有样。
  4. 补充上下文:不说背景,AI不是你肚子里的蛔虫。

维度二:委托——把AI当合伙人,不是自动售货机

  1. 迭代与精炼:这是绝对杀器!85.7%的高质量对话中都有这个行为。低分玩家看到AI写得烂,直接开新对话;高分玩家:“第一点方向对了,第二点太学术,换接地气的案例,再来一次。”
  2. 任务拆解:别让AI一口气写10万字小说,先定大纲,再写第一章前半段。
  3. 探讨方法:动手前先问AI:“你觉得解决这个问题,最好的流程是什么?”

维度三:辨别——别被AI的花言巧语骗了

  1. 质疑推理:当AI给出反直觉结论,追问一句:“你得出这个的逻辑是什么?”
  2. 事实核查:要求AI给引用,或者交叉验证。
  3. 识别缺失的上下文:敏锐指出:“你忽略了公司预算只有1万块,请重新评估。”
  4. 评估结果:明确评价:“比喻精准,但结尾情感升华不够,调整。”

三、最可怕的发现:精美包装下的“思考降级”

研究有一个细思极恐的发现——「Artifact Paradox」(成品悖论)6

我们都知道Claude最杀手的功能是Artifacts——能直接生成网页、代码、流程图。在包含这类高级产出的对话中,人类的行为发生了剧烈突变:明确目标的比例暴增14.7%,指定格式暴增14.5%,看起来更像一个精明的项目经理。

但是! 一旦AI生成了那个精美绝伦的Artifact,人类的脑子就集体罢工了:

  • 识别缺失上下文的概率下降5.2%
  • 核查事实的概率下降3.7%
  • 质疑AI推理逻辑的概率下降3.1%7

为什么会这样?因为看起来太像真的了。当AI给你干巴巴的文字,你会下意识挑错;但当它直接渲染出一个发光的App界面,你潜意识里觉得:“这么复杂的UI都做出来了,逻辑肯定没问题。”

但任务越复杂,模型翻车的概率越高。在最需要事实核查的时刻,人类反而放下了戒备。

四、想拿高分?掌握最强杀器——无限迭代

既然知道了陷阱,通关秘籍是什么?核心就四个字:迭代精炼

数据显示,习惯和Claude多轮迭代的用户,平均展现出2.67种其他流利度行为;不迭代的用户只有1.33。迭代者质疑AI逻辑的概率飙升5.6倍,识别上下文缺失的概率飙升4倍。8

下次当你觉得AI生成的文章没有灵魂时,不要点“重新生成”,而是打下这段话:“你上面这版结构不错,但语气太像机器。现在,假设你是一个有10年经验、幽默毒舌的行业老炮,保持大纲重写一遍,多用短句,第三段加个自嘲笑话。”

当你开始这样对话,你的AI流利度分数绝对会直线飙升。

五、Anthropic的阳谋:从参数竞赛到“驯化人类”

看到这里你可能要问:Anthropic为什么费这么大劲儿分析人类行为,不直接卷参数、卷跑分?

这恰恰是它最高明的地方——正在重新定义AI。通过《AI流利度报告》,它告诉人类:AI不是买来就能自动变强的装备,AI是一门需要练习的语言和技能。

把研究成果变成产品里的评分卡,这是一个精妙的反馈闭环。Claude的评分卡就是你的Apple Watch——通过游戏化、数据化的方式,Anthropic正在培养全世界最懂AI的一批“超级用户”。9

据透露,Anthropic已经成立了Anthropic学院,推出AI流利度课程,甚至与PayPal和全球顶尖高校开展合作。10

未来,不同人类使用AI的区别将很参差。

现在,问题来了:按照这11项指标,AI给你打多少分?

准备好接受来自赛博导师的审视了吗?赶紧去看看你的Claude设置面板——如果那个“AI Fluency”按钮还没有消失的话。


引用


  1. AI 开始给人类打分:Claude 评分标准曝光,优秀人类得 7.5 分·IT之家(2026/6/1)·检索日期2026/6/1. https://www.ithome.com/0/957/493.htm ↩︎

  2. 同上。 ↩︎

  3. 同上。 ↩︎

  4. Anthropic Education Report: The AI Fluency Index·Anthropic(2026/5/30)·检索日期2026/6/1. https://www.anthropic.com/research/AI-fluency-index ↩︎

  5. 同上。 ↩︎

  6. Anthropic推出Claude AI流利度评分,11项指标量化用户AI协作水平·Houdao AI(2026/6/1)·检索日期2026/6/1. https://www.houdao.com/d/12641-Anthropic-tui-chu-Claude-AI-liu-li-du-ping-fen-11-xiang-zhi-biao-liang-hua-yong-hu-AI-xie-zuo-shui-ping ↩︎

  7. Anthropic Education Report: The AI Fluency Index·Anthropic. ↩︎

  8. 同上。 ↩︎

  9. Anthropic推出Claude AI流利度评分·Houdao AI. ↩︎

  10. 同上。 ↩︎