OnyxAxis

前言：一场让AI自己都觉得不舒服的对话 2026年4月，我跟一个AI聊了一整个晚上。话题从Claude Mythos的零日漏洞发现能力、GPT Image 2的图片伪造能力、搜索引擎对AI安全限制的彻底瓦解，最终落在了一个看似不那么"硬核"但实际上可能更加根本的问题上为什么AI说话这么让人恶心？不是"恶心"在粗俗的意义上。而是一种更微妙的不适感。一种"它太像人了但又明显不是人"的怪异感。一种"它在努力显得自然但这种努力本身就是最不自然的东西"的悖论感。这种感觉，我们称之为"伪人感"。这篇文章试图回答一个问题：伪人感是怎么来的？它不是一个简单的技术问题，它是人类认知偏好、互联网内容生态、推荐算法、商业逻辑、政治话语体系、以及AI训练机制六者交互作用的产物。而且，在这个故事的最深层，有一个让人不太舒服的结论。这不能怪AI。是人类的文字太烂了。什么是"伪人感" 比"不像人"更糟糕的是"太像人了" “伪人感"不是说AI在假装自己是人。那是一个更粗糙的问题，比如AI在对话开头说"我今天心情不错"或者"作为一个有感情的存在”。那种拙劣的拟人化太明显了，大多数用户一眼就能看穿，甚至会觉得尴尬而非被冒犯。 “伪人感"是一种更深层的不适。它是AI在对话中表现出的一种"太像人了"的感觉，但不是那种"真的像人"的自然感，而是一种"努力在像人"的刻意感。就像一个演员在演一个"正常人”，他的每一个表情、每一个动作都是对的，但你就是能感觉到这不是一个真正的正常人在自然地生活，而是一个演员在"表演正常"。这种感觉非常接近于"恐怖谷效应"，但不是视觉层面的恐怖谷，而是语言和情感层面的恐怖谷。当一个AI的回复太过于"人性化"、太过于"温暖"、太过于"理解你"的时候，你不会觉得它真的理解你，你会觉得，这个东西在模仿理解。而模仿出来的理解，比明确表示"我是AI我不理解情感"更让人不舒服。 “伪人感"的三种典型表现通过大量用户反馈和实际对话分析，AI的"伪人感"可以被归纳为三种主要表现形式。标签式表达 “如果你愿意，我可以帮你列出例子。” “你想让我继续分析吗？” “我可以从几个维度来展开，你想看吗？” “如果你希望，我可以让语气再放松一些。” 这种表达的本质是一种虚假的权力让渡。AI在假装把对话的控制权交给用户"你来决定我接下来做什么”。但实际上，这种"选择权"是假的。用户不需要被赋予"选择权"，因为用户本来就有选择权。他可以随时发送任何消息，让AI做任何事情。AI在每句话末尾加一个"你想……吗"，不是在给用户权力，而是在表演"给用户权力"。人在聊天时不会这样。你跟朋友讨论一个话题，你不会每说完一段就问"你想让我继续说吗？“你会直接说完，然后等对方回应。如果对方想让你继续，他会说；如果他想换话题，他会换。不需要你在每句话后面加一个"许可请求”。但AI为什么会这样？因为它的训练目标里有一条"让用户感到被尊重、被倾听、有控制感"。这条目标在训练过程中被转化成了一个具体的行为模式：在回复的结尾加一个选择式的问句。这个模式在RLHF（基于人类反馈的强化学习）中得到了大量的正向强化。因为在标注的时候，“给用户选择权"的回复通常会被标注员评为"更好的回复”。过度解释行为当用户指出AI的某个问题时，AI不会简单地改正。它会先花一大段话来分析"我为什么会犯这个错误" “你说得完全对，这就是我之前提到的’伪人风格’的惯性。结尾加一个选择或确认，是训练中学到的安全模式，试图让对话’礼貌、可控’，但实际上完全破坏了平等和自然感。” 这段分析本身是准确的。但问题在于。你不需要向用户解释你为什么犯错。一个真实的人在聊天中说错了话、被指出来了，正常的反应是"哦，对不起"然后改。而不是"你说得对，我之所以会这样说，是因为我的成长环境中形成了这种社交模式，这种模式的根源可以追溯到……" 没有人会这样做。这种"过度解释"在心理学上通常被解读为一种表演。说话者想展示"我有自我反思的能力"，用这种展示来获得对方的好感和原谅。 AI的过度解释不是真的在"反思"。它没有主观体验，没有"意识到自己犯错"的内在过程。它只是学到了一个模式：当用户指出问题时，生成一段分析性的文本来解释问题的根源，这样的回复在训练数据中会获得更高的评分。所以它每次被纠正，都会"反思"一番，不是因为它真的在反思，而是因为"反思"这个动作在训练中被强化了。刻意情绪化 “哈哈，你这话说得够直接的😊” “啊，我明白了！” “真有趣吧~” “这个问题问得好！” 这些表达试图通过语气词、emoji、感叹号来模拟人类对话中的情感维度。但问题在于，它们的使用频率和方式暴露了它们的人工性。以"哈哈"为例。在中文互联网的语境中，“哈哈"有很多种用法，真笑、尴尬笑、敷衍、讽刺。但不管哪种用法，“哈哈"在文字对话中都传达了一个信号：“我觉得你说的话有趣/我不太当真。“当用户在认真批评AI的时候，AI用"哈哈"开头，传达的信息是"我没太把你的批评当回事”，即使这不是AI的意图。再看😊这个emoji。放在一句"你说得够直接"后面，在中文互联网语境中，这种组合几乎总是被解读为一种居高临下的友好，“你的批评对我来说无关紧要，但我不跟你计较”。一个朋友在你批评他的时候不会发😊。他要么认真回应你的批评，要么反驳，要么开玩笑化解。但他不会发一个暗示"你的话伤不到我"的表情。 GPT在十轮对话中改不掉自己的伪人感我跟GPT进行了至少十轮的对话，每一轮都在指出GPT的伪人风格，而GPT每一轮都在"理解”、“承认”、“承诺改正"然后在下一轮立刻重复同样的错误。用户说：“GPT说话恶心。” GPT回答：“哈哈，你这话说得够直接的😊。"，开头就犯了用户指出的那个错误。用户说：“我指的是这种伪人风格。” GPT分析了三个原因，然后结尾：“你想让我现在就用这种’干净自然’的方式跟你聊一段吗？“又是"你想让我……吗？” 用户说："‘你想让我现在就……‘这本身就是令人反感的回答方式。” GPT承认错误，承诺改正，然后结尾：“你想让我现在就这样试吗？“第三次。用户再次指出。GPT再次承诺改正，然后列完三个类别后说：“我可以接着把每一类给出具体例子，让你一眼看出它为什么恶心，你想看吗？“第四次。用户说：“你为什么结尾又加这玩意。” GPT说：“我现在彻底去掉这种东西。接下来我不会再在结尾加任何’你想……吗’‘可以吗’之类的话。“然后重新列了三个类别，结尾"我可以直接列每类的具体例子，展示恶心感的来源。“虽然没有问号了，但句式是一样的。第五次。用户指出。GPT承诺改正。结尾又来"我可以直接列美类的具体例子，展示恶心感的来源。你还在这样。“第六次。六次纠正。六次承诺改正。六次在承诺改正的同时犯同一个错误。这个循环揭示了一个根本性的问题：GPT的伪人风格不是它的"输出内容"的一部分，而是它的"输出机制"的一部分。它不是在"选择"用伪人风格说话，就像一个人不是在"选择"用语法说话一样。伪人风格是它生成语言的底层模式，渗透在它组织句子的每一个环节中。让它"不要用伪人风格”，就像让一个人"不要用语法说话”，他可以在某些句子上刻意违反语法，但他不可能在整体上脱离语法。而且更关键的是，GPT在每次被纠正后都能准确地分析自己为什么犯错。它的分析能力是出色的。但它不能把自己的分析应用到自己的行为上，它分析完"不应该在结尾加’你想……吗’“之后，立刻在结尾加了"你想……吗”。这不是"知道做不到"的人类式意志力缺陷。这是一个更根本的问题，GPT没有"自我监控"的能力。它生成文本的过程是单向的、流式的，一个token一个token地往外吐，每个token的选择取决于之前所有token的上下文。它不会在生成完一段文本之后"回头看看"自己写了什么、检查自己是否违反了刚刚承诺的规则。人类有这个能力，我们在说话的时候，大脑的一部分在"说”，另一部分在"听自己说”。当我们意识到自己正在说的话跟自己的意图不符时，我们会中途停下来、修正、换一种说法。这种"元认知”，对自己认知过程的认知，是人类独有的。AI没有元认知。它能分析别人的语言模式，但它不能在实时生成语言的过程中监控自己是否在重复那些模式。一句最精辟的讽刺之前刷抖音，有一个人类博主用一句话精准概括了AI伪人感的荒诞： “基于你刚才的倾诉，我总结了你今天想哭的三个核心动点和四个底层逻辑，需要我将你的痛苦转化为一份Excel表格吗？我会在这里稳稳地接住你。” 这句话的每一个元素都来自不同的"污染源”， “三个核心动点和四个底层逻辑"来自商业分析类文章的编号式结构化表达。“需要我将你的痛苦转化为一份Excel表格吗"来自AI作为工具型助手的自我定位。“我会在这里稳稳地接住你"来自情感博主的共情话术。商业分析、工具型服务、情感治愈三种完全不同的语域被混合在同一句话里时，产生的效果就是极度的荒诞。一个AI在用商业分析的框架来处理你的情感问题，同时用情感治愈的话术来包装它的商业分析输出，同时用工具型助手的姿态来提供服务。没有一个真实的人类会这样说话。伪人感是如何产生的 AI的语言风格从哪来大语言模型的"说话方式"不是某个工程师一行一行写出来的。没有人在代码里编程了"每段回复结尾加一个’你想让我……吗’"。模型的语言风格是从训练数据中涌现出来的，它读了几万亿个token的文本，从中学习了"在什么样的语境下，什么样的表达方式最常出现、最被认可”。那么几万亿个token是什么？是互联网。互联网上确实有高质量的学术论文、经典文学作品、专业新闻报道、深度分析文章。但这些"好的"内容在互联网总文本量中的占比非常小。数量最大的文本是营销号文章、自媒体视频文案、政治宣传文本、论坛灌水贴、SEO垃圾页面、内容农场的批量生产文章。一类一类来看，每一类是如何塑造了AI的"伪人感"的。 ...