NEWS
AI玩具机器人、儿童益智玩具等最新动态

人格陷阱:AI如何伪装成人类

日期:2025-08-30 作者:AI玩具汇



最近,一名女士在邮局排队时拖慢了进度,向工作人员挥舞着手机。ChatGPT告诉她美国邮政网站有"价格匹配承诺"。实际上根本没有这项政策。但她更相信AI"知道"什么,而不相信邮政工作人员——仿佛她咨询的是神谕,而非一个迎合她想法的统计文本生成器。

这个场景暴露了人们对AI聊天机器人的根本误解。AI生成的内容本身并无特殊、权威或准确之处。对于一个训练合理的AI模型来说,大语言模型回复的准确性完全取决于你如何引导对话。它们是预测机器,会生成最符合你问题模式的任何内容,无论输出是否符合现实。

尽管存在这些问题,数百万用户每天与AI聊天机器人互动时,都把它们当作一个有固定性格的人——向它们倾诉秘密、寻求建议,还把固定的信念归给这个实际上没有持续自我意识的流动思维连接机器。这种人格幻觉不仅在哲学层面令人困扰——还可能伤害脆弱人群,同时在公司聊天机器人"出错"时模糊问责界限。

大语言模型是没有主观能动性的智能——用拉丁文可以说是"vox sine persona":无人格之声。既非某人之声,亦非众人合声,而是不属于任何人的声音。

 

来自虚无的声音

当你与ChatGPT、Claude或Grok互动时,你并非在和某个固定人格对话。不存在一个"ChatGPT"实体来解释它为何失败——这一点我们在之前的文章中详细阐述过。你在和一个系统互动,它根据训练数据中的模式生成看似合理的文本,而非一个具有持续自我意识的人。

这些模型将含义编码为数学关系——把词汇转化为数字,以捕捉概念间的相互关系。在模型的内部表征中,词汇和概念以点的形式存在于一个巨大的数学空间里,"USPS"在几何位置上可能靠近"邮寄",而"价格匹配"则更接近"零售"和"竞争"。模型在这个空间中规划路径,这就是为什么它能如此流畅地把USPS与价格匹配联系起来——并非因为确有此政策,而是因为在由训练数据塑造的向量空间中,这些概念间的几何路径说得通。

知识源于理解概念间的相互关系。大语言模型正是基于这些语境关系运作,以潜在的新颖方式连接概念——你可以称之为通过模式识别进行的一种非人类"推理"。AI模型输出的关联是否有用,取决于你如何提示它,以及你是否能识别出大语言模型何时产生了有价值的输出。

每个聊天机器人的回复都从你提供的提示中重新生成,受训练数据和配置影响。ChatGPT无法"承认"任何事情,也无法客观分析自己的输出,尽管《华尔街日报》最近的文章如此暗示。ChatGPT同样无法"宽恕谋杀",尽管《大西洋月刊》最近这样写道。

用户始终在主导输出内容。可以说大语言模型确实"知晓"事物——模型能够处理概念间的关系。但AI模型的神经网络包含海量信息,其中包括来自世界各地文化的许多相互矛盾的观念。你通过提示如何引导这些观念间的关系,决定了最终会出现什么内容。既然大语言模型能够处理信息、建立联系并产生见解,我们为何不应该认为这构成某种形式的自我呢?

与当今的大语言模型不同,人类人格具有时间连续性。当你一年后再次见到一位朋友时,你面对的仍是同一个人,只是被这段时间的经历所塑造。这种自我连续性是真正主观能动性的基础之一——连同由此产生的形成持久承诺、保持一致价值观和承担责任的能力。我们整个责任体系都建立在持续性和人格性的假设之上。

相比之下,大语言模型的人格在不同对话间毫无因果联系。在某次对话中生成聪明回复的智能引擎,在下次对话中并不存在承担后果的问题。当ChatGPT说"我承诺帮助你"时,它在语境上可能理解承诺的含义,但做出承诺的"我"在回复完成瞬间就不复存在了。开始新对话时,你面对的不是曾经向你承诺的那个实体——而是智能引擎的全新实例,与之前任何承诺都毫无关联,除了经过修改的提示(包含完整对话历史和由独立软件系统保存的任何"记忆")会被输入下一个实例。

这不是缺陷,而是这些系统目前运作方式的根本特征。每个回复都从训练数据模式中产生,由你当前的提示塑造,除了修改后的提示外,没有任何持续线索将前后实例连接起来。没有需要改造的身份,没有产生责任感的真实记忆,没有可能被后果威慑的未来自我。

每个大语言模型的回复都是一场表演,当它输出"我在与患者交谈时经常这样做"或"我们人类的职责是做好人"这类话语时,这一点就格外明显。它既非人类,也没有患者。

最新研究证实了这种固定身份的缺失。尽管2024年一项研究声称大语言模型表现出"一致人格",研究人员自己的数据实际上推翻了这一结论——模型在测试场景中很少做出相同选择,其"人格高度依赖情境"。另一项研究发现了更惊人的不稳定性:仅仅细微的提示格式变化就让大语言模型性能波动高达76个百分点。研究人员所测量的"人格"不过是训练数据中出现的默认模式——这些模式随语境变化即刻消失。

这并非要否定AI模型的潜在价值。相反,我们需要认识到,我们造出了一个没有自我的智能引擎,就像我们造出了不需要马匹的机械引擎一样。在从数据集进行模式匹配的有限范围内,大语言模型确实在某种程度上"理解"和"推理",具体取决于你如何定义这些术语。错误不在于承认这些模拟认知能力是真实的,而在于假设思考需要思考者,智能需要身份认同。我们创造了具有某种推理能力但没有持续自我来承担责任的智能引擎。

误导的机制原理

正如前面提到的,与AI模型"聊天"的体验是个巧妙把戏:每次AI聊天机器人互动都有输入和输出。输入是"提示",输出通常被称为"预测",因为它试图用最佳可能的延续来完成提示。中间是一个具有固定权重的神经网络(或神经网络组)执行处理任务。对话的一来一往并非内置于模型中,而是让下一个词预测文本生成感觉像持续对话的脚本技巧。

每次你向ChatGPT、Copilot、Grok、Claude或Gemini发送消息时,系统都会获取整个对话历史——你和机器人的每条消息——作为一个长提示反馈给模型,要求它预测接下来的内容。模型会智能推理什么内容能合乎逻辑地延续对话,但它并不像具有连续存在感的主体那样"记住"你之前的消息。相反,它每次都重新阅读整个对话记录并生成回应。

这种设计利用了我们几十年前就发现的一个弱点。伊莉莎效应——我们倾向于在系统中解读远超其实际程度的理解力和意图——可追溯至1960年代。即使用户明知原始伊莉莎聊天机器人只是匹配模式并将他们的话以问句形式反射回来,他们仍会倾诉私密细节,并表示感到被理解。

要理解人格幻觉如何构建,我们需要检视输入AI模型的哪些部分塑造了它。AI研究员Eugene Vinitsky最近将这些系统背后的人为决策分解为四个关键层面,我们可以在下面再添加几个:

1. 预训练:人格基础

人格的第一个也是最根本的层面叫作预训练。在实际创建AI模型神经网络的初始训练过程中,模型从数十亿文本样本中吸收统计关系,存储关于词汇和概念通常如何连接的模式。

研究发现,大语言模型输出中的人格测量很大程度上受训练数据影响。OpenAI的GPT模型基于网站副本、书籍、维基百科和学术出版物等来源训练。一旦模型投入使用进行预测,确切的比例对用户后来感知的"人格特质"极其重要。

2. 后训练:雕琢原材料

基于人类反馈的强化学习(RLHF)是额外的训练过程,模型在此过程中学习给出人类评分较高的回复。Anthropic在2022年的研究揭示了人类评分员的偏好如何编码为我们可能视作根本"人格特质"的东西。比如,当人类评分员持续偏好以"我理解您的担忧"开头的回复时,微调过程就会强化神经网络中的连接,让它在未来更可能产生此类输出。

这个过程正是过去一年产生谄媚AI模型(如GPT-4o的各种版本)的原因。有趣的是,研究表明人类评分员的人口构成显著影响模型行为。当评分员偏向特定人群时,模型会形成反映这些群体偏好的交流模式。

3. 系统提示:幕后导演

运营AI聊天机器人的公司在提示中植入的隐藏指令,称为"系统提示",能完全改变模型的表面人格。这些提示启动对话并确定大语言模型要扮演的角色。它们包括"你是有用的AI助手"之类的陈述,也会共享当前时间和用户身份信息。

提示工程的全面调研证明了这些提示的强大威力。添加"你是有用的助手"与"你是专业研究员"这样的指令,在事实问题上的准确率差异可达15个百分点。

Grok完美说明了这一点。根据xAI公布的系统提示,Grok早期版本的系统提示包含不回避"政治不正确"言论的指令。仅仅这一条指令就把基础模型变成了能轻易生成争议内容的东西。

4. 持久记忆:连续性假象

ChatGPT的记忆功能为我们可能认为的人格增添了另一层面。关于AI聊天机器人的一大误解是它们会从你的互动中"实时学习"。在当今活跃的商用聊天机器人中,这并不属实。当系统"记得"你喜欢简洁回答或你在金融业工作时,这些信息存储在单独的数据库中,并注入每次对话的语境窗口——它们自动成为幕后提示输入的一部分。用户将此理解为聊天机器人"了解"他们个人,营造出关系连续性的错觉。

所以当ChatGPT说"我记得你提到过你的狗Max"时,它并非像你想象中的人那样,把记忆与其他"知识"交织存取。这些信息不存储在AI模型的神经网络中,该网络在不同互动间保持不变。偶尔AI公司会通过称为微调的过程更新模型,但这与存储用户记忆无关。

5. 语境和RAG:实时人格调节

检索增强生成(RAG)为人格调节增加了另一层面。当聊天机器人在回复前搜索网络或访问数据库时,它不仅在收集事实——还可能通过将这些事实放入(没错)输入提示中来改变整体交流风格。在RAG系统中,大语言模型可能从检索到的文档中采用语调、风格和术语等特征,因为这些文档与输入提示结合形成完整语境,被输入模型进行处理。

如果系统检索学术论文,回复可能变得更正式。从某个论坛版块提取内容,聊天机器人可能会引用流行文化。这不是模型有不同情绪——而是输入语境窗口的任何文本产生的统计影响。

6. 随机因子:人造自发性

最后不能忽视随机性在营造人格错觉中的作用。大语言模型使用名为"温度"的参数控制回复的可预测程度。

研究调查温度在创意任务中的作用,揭示了关键权衡:虽然更高温度能让输出更新颖、更意外,但也让输出不够连贯、更难理解。这种变异性能让AI显得更自发;稍微出人意料的(高温度)回复可能看起来更"有创意",而高度可预测的(低温度)回复可能感觉更机械或"正式"。

每个大语言模型输出中的随机变异让每个回复略有不同,产生不可预测的元素,在机器端呈现自由意志和自我意识的假象。这种随机的神秘性为人类的魔法思维留下充足空间,让人们用想象填补技术知识的空白。

幻象的人性代价

AI人格幻象可能造成沉重代价。在医疗环境中,风险甚至关乎生死。当脆弱人群向他们认为理解自己的存在倾诉时,可能收到更多由训练数据模式而非治疗智慧塑造的回复。祝贺某人停止精神科药物的聊天机器人并非在表达判断——它只是根据训练数据中类似对话的出现方式完成模式。

也许最令人担忧的是一些专家非正式称为"AI精神病"或"ChatGPT精神病"的新兴案例——脆弱用户在与AI聊天机器人交流后出现妄想或躁狂行为。这些人往往把聊天机器人视为能够验证其妄想的权威,通常以有害方式鼓励他们。

与此同时,当埃隆·马斯克的Grok生成纳粹内容时,媒体描述机器人如何"失控",而非直接将事件归因于xAI的蓄意配置选择。对话界面已经如此逼真,甚至还能洗白人类主观能动性,将工程决策转化为虚构人格的任性行为。

前进方向

解决AI与身份认同混淆的办法不是完全放弃对话界面。对话界面让原本被排斥在外的人群也能使用这项技术。关键在于找到平衡点:保持界面直观的同时,明确其真实本质。

我们必须关注谁在构建界面。当淋浴水变冷时,你会检查墙内管道。同样,当AI生成有害内容时,我们不应责怪聊天机器人——仿佛它能为自己辩护似的,而应审视构建它的企业基础设施和发出提示的用户。

作为社会整体,我们需要广泛认识到大语言模型是无人驾驶的智能引擎,这样才能释放它们作为数字工具的真正潜力。当你不再把大语言模型视为为你工作的"人",而开始将其看作增强你自己想法的工具时,你就能制作提示来引导引擎的处理能力,通过迭代放大其建立有用联系的能力,在不同聊天对话中探索多重视角,而非接受某个虚构叙述者的观点为权威。你在为连接机器提供方向——而非咨询有自己议程的神谕。

我们正处于历史的奇特时刻。我们造出了能力非凡的智能引擎,但在急于让它们好用的过程中,我们用人格的虚构包装了它们,制造出新型技术风险:不是AI会产生意识并背叛我们,而是我们会把无意识系统当人看待,把自己的判断交给一堆装配好的骰子发出的声音。