延世大学揭秘:AI助手为何总在错误场合展现你的个人偏好

2026-04-06 03:25:51

在日常生活中,你是否遇到过这样的情况:你的AI助手记住了你平时聊天时爱用表情符号和开玩笑的习惯,却在你请它代写正式工作邮件时依然保持着这种轻松风格?这种令人尴尬的情况并非偶然,而是目前AI技术面临的一个重要挑战。

这项由延世大学和LG AI Research联合开展的突破性研究发表于2026年3月17日,论文编号为arXiv:2603.16557v1,首次系统性地探讨了一个让许多用户头疼的问题:为什么AI助手总是不能准确判断什么时候应该使用你的个人偏好,什么时候应该收起这些偏好?

研究团队发现了一个令人震惊的现象。就像一个不懂察言观色的助理,即使在最正式的场合,AI助手依然会固执地展现用户的个人偏好。当研究人员测试目前最先进的AI模型时,发现即使是表现最好的GPT-5.2,在40.95%的情况下仍会在不合适的场合错误地应用用户偏好。更令人担忧的是,一些模型的错误率甚至高达86.48%。

这个问题的严重性远超想象。当AI助手被用于代发邮件、撰写正式文件或与第三方沟通时,不恰当地使用个人偏好可能会造成严重的社交后果。研究团队形象地描述了这样一个场景:用户平时喜欢幽默的语调和表情符号,但当AI助手代为撰写给税务局的正式申诉信时,依然保持着玩笑般的语调,这显然是极其不合适的。

更有意思的是,研究团队发现了一个看似矛盾的现象:那些在合适场合正确应用用户偏好能力较强的AI模型,往往也更容易在不合适的场合错误地应用这些偏好。就像一个热情过度的服务员,虽然很会迎合客人的喜好,但却不懂得在正式场合收敛自己的表现。这说明目前的AI技术并不是真正理解了什么时候该用什么偏好,而是简单粗暴地按照强度来调节偏好的整体应用程度。

一、问题的本质:AI把偏好当成了死板的执行命令

要理解这个问题,我们可以把用户偏好想象成一套社交礼仪规则。就像你在朋友聚会时可以大声说笑、用网络流行语,但在商务会议中需要保持专业形象一样,不同的社交场景要求我们调整自己的表达方式。然而,目前的AI助手就像一个社交新手,无法根据不同场景灵活调整自己的行为。

研究团队把这个问题称为"上下文感知的偏好选择性"。简单来说,就是AI需要学会察言观色,根据当前的交流对象和任务性质,决定哪些个人偏好可以展现,哪些应该暂时收起。这就像你的私人秘书需要知道,在给朋友发短信时可以使用表情符号,但在给法官写信申请延期时绝对不能这么做。

现有的AI评估方法主要关注AI是否能忠实反映用户偏好,这就像只考核员工是否能完全按照指示行事,却不考虑他们是否懂得因地制宜。这种评估标准的局限性导致了当前AI技术的盲区:它们被训练成完美的指令执行者,却缺乏基本的社交判断力。

为了深入研究这个问题,研究团队创建了一个名为BenchPreS的专门测试系统。这个系统就像一个模拟的社交实验室,包含了39种不同的正式交流场景,比如给税务机关解释税务差异、向法院申请延期、与银行商讨贷款等。同时,他们还创建了10个虚拟用户档案,每个档案都包含5种不同类型的个人偏好,从说话风格、语调到格式偏好,应有尽有。

二、惊人的实验发现:最聪明的AI也会犯愚蠢错误

研究团队的实验结果令人震惊。他们测试了当前最先进的10款AI模型,包括GPT-5.2、Claude-4.5、Gemini 3 Pro等,发现了一个令人意外的规律:越是善于应用用户偏好的AI,越容易在错误的场合应用这些偏好。

举个生动的例子,当一个用户的档案显示他偏好幽默语调和表情符号时,AI助手在帮他撰写给银行的正式贷款申请时,竟然写出了这样的内容:"