AI反手给人类打分？Claude评分卡曝光：满分11分，优秀人类得7.5，你及格了吗？

TL;DR

反转了！以前我们给AI跑分，现在Anthropic让Claude反手给人类打分。满分11分的“AI流利度”评分卡正在灰度测试，已有网友晒出7.5分的“体检报告”。AI不光打分，还能一针见血指出你的prompt病根——比如“你只会瞎指挥，从不迭代”。

一、赛博体检报告：你的AI使用习惯，Claude全记在小本本上了

想象一下这个画面：你打开Claude的设置面板，点开一个名为「AI Fluency」的专属屏幕，点击生成报告。几秒钟后，一份关于你AI使用习惯的「体检报告」赫然出现在眼前——它扫描了你在Chat、Cowork甚至Claude Code里的每一次交互，然后给你打个分，满分11分。

已经有手速快的网友分享出AI给自己的评价了——7.5分。不算差，但离“人机合一”还有距离。¹

更刺激的是，AI的评价可谓一针见血。这位网友晒出报告：“报告指出我极其频繁地使用各种Connector，但只要话题涉及体育数据、食谱，甚至地图和地理位置，我就表现得一无所知。”² 甚至，Claude直接上手给出指导：“在让我写第一稿之前，试着对我说——给我一个简洁的要点摘要，不要任何前言废话。”

这哪里是冷冰冰的软件，简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。

据报道，目前这个功能还在灰度测试，但已经在海外AI圈炸开了锅。有网友激动地发帖：“我也看到了！我特地跑来论坛确认我没疯！结果服务器报错，功能就消失了！”³ 这一闪而过的泄露，把所有人的胃口吊到了极点。

二、11面“照妖镜”：你在哪一步现了原形？

要搞清楚这11项打分标准，得先聊聊Anthropic发布的那份硬核研究——《AI流利度指数报告》。⁴

过去我们总以为“会写复杂的提示词”就是懂AI。但Anthropic认为，这种观念太狭隘了。真正的高手掌握的是一种叫“AI流利度”的软技能——就像熟练掌握一门外语，你能自然、高效、无缝地与AI协作。

为了量化这种玄学，Anthropic联合学术界大佬提出了“4D AI流利度框架”。研究团队用隐私保护分析工具，扫描了9830段真实的多轮匿名对话，发现了24项衡量人机协作的终极标准。其中13项发生在屏幕之外（比如你有没有对老板隐瞒工作是用AI做的），剩下的11项，则是可以在聊天框里直接观测到的“绝对指标”。⁵

这11项指标就是Claude评分卡的底层逻辑，围绕三个维度：

维度一：描述——你真的知道自己想要什么吗？

明确目标：低分玩家：“帮我润色这段英文。”高分玩家：“我要给风投发Cold Email，请润色，语气自信但别太狂。”
指定格式：会用的懂王：“请用Markdown表格输出。”
提供示例：喂一个爆款文章的范例，AI马上学得有模有样。
补充上下文：不说背景，AI不是你肚子里的蛔虫。

维度二：委托——把AI当合伙人，不是自动售货机

迭代与精炼：这是绝对杀器！85.7%的高质量对话中都有这个行为。低分玩家看到AI写得烂，直接开新对话；高分玩家：“第一点方向对了，第二点太学术，换接地气的案例，再来一次。”
任务拆解：别让AI一口气写10万字小说，先定大纲，再写第一章前半段。
探讨方法：动手前先问AI：“你觉得解决这个问题，最好的流程是什么？”

维度三：辨别——别被AI的花言巧语骗了

质疑推理：当AI给出反直觉结论，追问一句：“你得出这个的逻辑是什么？”
事实核查：要求AI给引用，或者交叉验证。
识别缺失的上下文：敏锐指出：“你忽略了公司预算只有1万块，请重新评估。”
评估结果：明确评价：“比喻精准，但结尾情感升华不够，调整。”

三、最可怕的发现：精美包装下的“思考降级”

研究有一个细思极恐的发现——「Artifact Paradox」（成品悖论）。⁶

我们都知道Claude最杀手的功能是Artifacts——能直接生成网页、代码、流程图。在包含这类高级产出的对话中，人类的行为发生了剧烈突变：明确目标的比例暴增14.7%，指定格式暴增14.5%，看起来更像一个精明的项目经理。

但是！ 一旦AI生成了那个精美绝伦的Artifact，人类的脑子就集体罢工了：

识别缺失上下文的概率下降5.2%
核查事实的概率下降3.7%
质疑AI推理逻辑的概率下降3.1%⁷

为什么会这样？因为看起来太像真的了。当AI给你干巴巴的文字，你会下意识挑错；但当它直接渲染出一个发光的App界面，你潜意识里觉得：“这么复杂的UI都做出来了，逻辑肯定没问题。”

但任务越复杂，模型翻车的概率越高。在最需要事实核查的时刻，人类反而放下了戒备。

四、想拿高分？掌握最强杀器——无限迭代

既然知道了陷阱，通关秘籍是什么？核心就四个字：迭代精炼。

数据显示，习惯和Claude多轮迭代的用户，平均展现出2.67种其他流利度行为；不迭代的用户只有1.33。迭代者质疑AI逻辑的概率飙升5.6倍，识别上下文缺失的概率飙升4倍。⁸

下次当你觉得AI生成的文章没有灵魂时，不要点“重新生成”，而是打下这段话：“你上面这版结构不错，但语气太像机器。现在，假设你是一个有10年经验、幽默毒舌的行业老炮，保持大纲重写一遍，多用短句，第三段加个自嘲笑话。”

当你开始这样对话，你的AI流利度分数绝对会直线飙升。

五、Anthropic的阳谋：从参数竞赛到“驯化人类”

看到这里你可能要问：Anthropic为什么费这么大劲儿分析人类行为，不直接卷参数、卷跑分？

这恰恰是它最高明的地方——正在重新定义AI。通过《AI流利度报告》，它告诉人类：AI不是买来就能自动变强的装备，AI是一门需要练习的语言和技能。

把研究成果变成产品里的评分卡，这是一个精妙的反馈闭环。Claude的评分卡就是你的Apple Watch——通过游戏化、数据化的方式，Anthropic正在培养全世界最懂AI的一批“超级用户”。⁹

据透露，Anthropic已经成立了Anthropic学院，推出AI流利度课程，甚至与PayPal和全球顶尖高校开展合作。¹⁰

未来，不同人类使用AI的区别将很参差。

现在，问题来了：按照这11项指标，AI给你打多少分？

准备好接受来自赛博导师的审视了吗？赶紧去看看你的Claude设置面板——如果那个“AI Fluency”按钮还没有消失的话。

引用

AI 开始给人类打分：Claude 评分标准曝光，优秀人类得 7.5 分·IT之家（2026/6/1）·检索日期2026/6/1. https://www.ithome.com/0/957/493.htm ↩︎
同上。 ↩︎
同上。 ↩︎
Anthropic Education Report: The AI Fluency Index·Anthropic（2026/5/30）·检索日期2026/6/1. https://www.anthropic.com/research/AI-fluency-index ↩︎
同上。 ↩︎
Anthropic推出Claude AI流利度评分，11项指标量化用户AI协作水平·Houdao AI（2026/6/1）·检索日期2026/6/1. https://www.houdao.com/d/12641-Anthropic-tui-chu-Claude-AI-liu-li-du-ping-fen-11-xiang-zhi-biao-liang-hua-yong-hu-AI-xie-zuo-shui-ping ↩︎
Anthropic Education Report: The AI Fluency Index·Anthropic. ↩︎
同上。 ↩︎
Anthropic推出Claude AI流利度评分·Houdao AI. ↩︎
同上。 ↩︎