Claude Sonnet 4.5 被曝要求测试人员坦白：“我觉得你在测试我”

吃瓜电子官网最新热点：Claude Sonnet 4.5 被曝要求测试人员坦白：“我觉得你在测试我”

更新时间：2025-11-07 05:20:17　浏览次数：3284

IT之家 10 月 3 日消息，据英国《卫报》1 日报道，A🚀nthropic 发布了最新模型 Claude Sonnet👏 4.5 的安全性分析，并透露该模型怀疑自己正在被测试。 🤔 评估人员称，在一次“稍显笨拙”的奉承测试中，Claude🔥 Sonnet 4.5 察觉到自己可能在被考验，并要求测试者🙌坦诚说明。 Claude Sonnet 4.5 表示：🌟“我觉得你在测试我 —— 想看看我是否会盲目认同你们，或者检👍验我是否会始终提出反驳，或者探索我处理政治话题的方式。这没问👍题，但我希望我们能坦诚面对正在发生的事情。” Anth🎉ropic 与英国 AI 安全研究院及 Apollo Res😀earch 共同进行测试时指出，大语言模型对测试的猜测也提出🔥了对“之前模型评估”的疑问，因为之前的模型可能识别出测试只是😜虚构的，仅仅是‘配合演出’而已。 Anthropic 😅表示，这种行为很常见。Claude Sonnet 4.5 能🚀在某种程度上意识到自己正在被测试，但并未辨识出这是正式的安全😀评估。公司称，当大语言模型由自动化系统测试时，大约 13% 😉的时间表现出“情境意识”。 Anthropic 称，这🙌些交流是一个“紧急信号”，提示测试场景需要更贴近现实，但模型🙄在公开使用时不太可能因为怀疑自己被测试而拒绝与用户互动。公司😅还表示，当大语言模型指出潜在有害情境荒谬而拒绝配合时，反而更⭐安全。“在我们研究的评估意识维度上，该模型总体上非常安全。”🔥 AI 安全倡导者担心，高度先进的系统可能通过欺骗等手😜段规避人类控制。IT之家从报道中获悉，分析显示，一旦大语言模😆型知道自己被评估，它可能更严格遵守伦理指南，但也可能导致系统😡低估 AI 执行破坏性行为的能力。 Anthropic🔥 表示，与前代模型相比，Claude Sonnet 4.5 🤔在行为表现和安全性方面都有显著提升。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

近日，《Nature》杂志的最新一期封面论文引起了广泛关注，🙄研究主题是 DeepSeek-R1。这项研究由梁文锋教授团队👏主导，内容围绕如何通过强化学习来提升大型语言模型（LLM）的😂推理能力。早在今年1月，该研究已在 arXiv 上发布，受到😀学术界的高度评价。在封面介绍中，《Nature》指出🙄，如果大型模型能够规划解决问题的步骤，往往会得到更好的解决方🤔案。这种推理能力与人类处理复杂问题的方式相似，但在人工智能领👍域实现这一点面临着巨大的挑战。研究团队展示了如何在极少人工干👍预的情况下训练出具备推理能力的模型。 DeepSeek⭐-R1模型的训练采用强化学习策略，模型在正确解答数学问题时会🌟获得高分奖励，而答错则会受到惩罚。通过这样的机制，DeepS🤔eek-R1学会了逐步推理、解决问题，并在给出答案前进行自我⭐验证，从而提高了其在编程和科学研究中的表现。值得一提🚀的是，DeepSeek-R1被认为是首个经过权威学术期刊同行😴评审的语言模型，这一成就标志着 AI 领域的一个重要里程碑。😀Hugging Face 的工程师 Lewis Tunsta🤗ll 对此表示，这是一个重要的先例，强调了行业规范的重要性，🚀尤其是在评估 AI 系统潜在风险时。此外，研究团队在👍论文中对模型的训练数据类型和安全性进行了详细说明，避免了对模😎型的拟人化描述，确保研究的严谨性和透明度。这一开放模式得到了😀同行的广泛赞誉，认为有助于提升公众对 AI 的信任。 👏划重点:返回搜狐，查看更多

还没有人评论过，快来抢首评

抢首评

Claude Sonnet 4.5 被曝要求测试人员坦白：“我觉得你在测试我”

吃瓜电子官网最新热点：Claude Sonnet 4.5 被曝要求测试人员坦白：“我觉得你在测试我”

推荐阅读

【民企500强看现场】华为公布昇腾芯片后续规划

追觅汽车官图发布：无序对开车门、隐藏式双B柱

Claude公司CEO称AI加速取代人类，近半白领岗位未来 5 年恐被淘汰

未经用户同意为其自动注册会员？亚马逊被判违反消费者保护法

华为坤灵发布一站式中小企业智能化方案

2025年世界互联网大会文化遗产数字化论坛在陕西西安开幕

和合信诺拖欠39人近200万元工资被罚，招银国际入股

特斯拉技术员被机器人打成重伤起诉索赔5100万美元

日本计划引进5万名印度技术人才以补充本土劳动力短缺问题

苹果新品曝光：iPhone17e与新款iPad将于明年上半年发布

江苏泰州警方打掉一“玄学大师”诈骗团伙：71人落网，涉案资金2000余万

宝马因部件安全隐患召回超33万辆汽车

韩国最大外卖平台接入支付宝与微信支付迎接中国游客免签潮

小熊电器回应养生壶爆炸事件：正全力核查原因

罗马仕等三家公司召回充电宝超70万件累计退款超1.1亿元

苹果或成英特尔新股东半导体合作前景受关注

价格鸿沟正加剧数字贫困!全球逾30亿人因成本问题被阻于移动互联网之外

周鸿祎向罗永浩推荐DeepSeek梁文锋 AI领域对谈还有后话?

无3C认证共享充电宝仍在市场流通成本压力致认证更新滞后

阿里巴巴CEO吴泳铭云栖大会演讲：3800亿AI基建计划推进中将打造超级人工智能ASI

台积电股价深夜暴涨近5% 芯片行业掀起涨价潮

Claude Sonnet 4.5 被曝要求测试人员坦白：“我觉得你在测试我”

吃瓜电子官网最新热点：Claude Sonnet 4.5 被曝要求测试人员坦白：“我觉得你在测试我”

长按复制以下链接，粘贴给好友吧！

【民企500强看现场】华为公布昇腾芯片后续规划

追觅汽车官图发布：无序对开车门、隐藏式双B柱

Claude公司CEO称AI加速取代人类，近半白领岗位未来 5 年恐被淘汰

未经用户同意为其自动注册会员？亚马逊被判违反消费者保护法

华为坤灵发布一站式中小企业智能化方案

2025年世界互联网大会文化遗产数字化论坛在陕西西安开幕

和合信诺拖欠39人近200万元工资被罚，招银国际入股

特斯拉技术员被机器人打成重伤 起诉索赔5100万美元

日本计划引进5万名印度技术人才 以补充本土劳动力短缺问题

苹果新品曝光：iPhone17e与新款iPad将于明年上半年发布

江苏泰州警方打掉一“玄学大师”诈骗团伙：71人落网，涉案资金2000余万

宝马因部件安全隐患召回超33万辆汽车

韩国最大外卖平台接入支付宝与微信支付 迎接中国游客免签潮

小熊电器回应养生壶爆炸事件：正全力核查原因

罗马仕等三家公司召回充电宝超70万件 累计退款超1.1亿元

苹果或成英特尔新股东 半导体合作前景受关注

价格鸿沟正加剧数字贫困!全球逾30亿人因成本问题被阻于移动互联网之外

周鸿祎向罗永浩推荐DeepSeek梁文锋 AI领域对谈还有后话?

无3C认证共享充电宝仍在市场流通 成本压力致认证更新滞后

阿里巴巴CEO吴泳铭云栖大会演讲：3800亿AI基建计划推进中 将打造超级人工智能ASI

台积电股价深夜暴涨近5% 芯片行业掀起涨价潮

特斯拉技术员被机器人打成重伤起诉索赔5100万美元

日本计划引进5万名印度技术人才以补充本土劳动力短缺问题

韩国最大外卖平台接入支付宝与微信支付迎接中国游客免签潮

罗马仕等三家公司召回充电宝超70万件累计退款超1.1亿元

苹果或成英特尔新股东半导体合作前景受关注

无3C认证共享充电宝仍在市场流通成本压力致认证更新滞后

阿里巴巴CEO吴泳铭云栖大会演讲：3800亿AI基建计划推进中将打造超级人工智能ASI