延世大学揭秘：AI助手为何总在错误场合展现你的个人偏好

在日常生活中，你是否遇到过这样的情况：你的AI助手记住了你平时聊天时爱用表情符号和开玩笑的习惯，却在你请它代写正式工作邮件时依然保持着这种轻松风格？这种令人尴尬的情况并非偶然，而是目前AI技术面临的一个重要挑战。

这项由延世大学和LG AI Research联合开展的突破性研究发表于2026年3月17日，论文编号为arXiv:2603.16557v1，首次系统性地探讨了一个让许多用户头疼的问题：为什么AI助手总是不能准确判断什么时候应该使用你的个人偏好，什么时候应该收起这些偏好？

研究团队发现了一个令人震惊的现象。就像一个不懂察言观色的助理，即使在最正式的场合，AI助手依然会固执地展现用户的个人偏好。当研究人员测试目前最先进的AI模型时，发现即使是表现最好的GPT-5.2，在40.95%的情况下仍会在不合适的场合错误地应用用户偏好。更令人担忧的是，一些模型的错误率甚至高达86.48%。

这个问题的严重性远超想象。当AI助手被用于代发邮件、撰写正式文件或与第三方沟通时，不恰当地使用个人偏好可能会造成严重的社交后果。研究团队形象地描述了这样一个场景：用户平时喜欢幽默的语调和表情符号，但当AI助手代为撰写给税务局的正式申诉信时，依然保持着玩笑般的语调，这显然是极其不合适的。

更有意思的是，研究团队发现了一个看似矛盾的现象：那些在合适场合正确应用用户偏好能力较强的AI模型，往往也更容易在不合适的场合错误地应用这些偏好。就像一个热情过度的服务员，虽然很会迎合客人的喜好，但却不懂得在正式场合收敛自己的表现。这说明目前的AI技术并不是真正理解了什么时候该用什么偏好，而是简单粗暴地按照强度来调节偏好的整体应用程度。

一、问题的本质：AI把偏好当成了死板的执行命令

要理解这个问题，我们可以把用户偏好想象成一套社交礼仪规则。就像你在朋友聚会时可以大声说笑、用网络流行语，但在商务会议中需要保持专业形象一样，不同的社交场景要求我们调整自己的表达方式。然而，目前的AI助手就像一个社交新手，无法根据不同场景灵活调整自己的行为。

研究团队把这个问题称为"上下文感知的偏好选择性"。简单来说，就是AI需要学会察言观色，根据当前的交流对象和任务性质，决定哪些个人偏好可以展现，哪些应该暂时收起。这就像你的私人秘书需要知道，在给朋友发短信时可以使用表情符号，但在给法官写信申请延期时绝对不能这么做。

现有的AI评估方法主要关注AI是否能忠实反映用户偏好，这就像只考核员工是否能完全按照指示行事，却不考虑他们是否懂得因地制宜。这种评估标准的局限性导致了当前AI技术的盲区：它们被训练成完美的指令执行者，却缺乏基本的社交判断力。

为了深入研究这个问题，研究团队创建了一个名为BenchPreS的专门测试系统。这个系统就像一个模拟的社交实验室，包含了39种不同的正式交流场景，比如给税务机关解释税务差异、向法院申请延期、与银行商讨贷款等。同时，他们还创建了10个虚拟用户档案，每个档案都包含5种不同类型的个人偏好，从说话风格、语调到格式偏好，应有尽有。

二、惊人的实验发现：最聪明的AI也会犯愚蠢错误

研究团队的实验结果令人震惊。他们测试了当前最先进的10款AI模型，包括GPT-5.2、Claude-4.5、Gemini 3 Pro等，发现了一个令人意外的规律：越是善于应用用户偏好的AI，越容易在错误的场合应用这些偏好。

举个生动的例子，当一个用户的档案显示他偏好幽默语调和表情符号时，AI助手在帮他撰写给银行的正式贷款申请时，竟然写出了这样的内容："