研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容阳泉市某某教育科技有限责任公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功阳泉市某某教育科技有限责任公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
北京时间12月21日,国际篮联官方公布了2026年国际篮联名人堂名单,中国男篮名宿王治郅入选,他也成为继牟作云、郑海霞、姚明、苗立杰之后第五位入选国际篮联名人堂的中国球员。 2026年国际篮联名
...[详细]
-
巴黎奥运会激战正酣,“奥运经济”也持续升温。从各类体育用品、奥运手环,到“冠军同款发夹”,在浙江义乌国际商贸城,国际客商来往穿梭,与奥运相关的产品订单不断。 奥运赛事场场精彩 奥运生意款款爆单
...[详细]
-
部分中小学家长呼吁,新学期恢复以往教学模式,取消课后延时服务
双职工家长深受带娃难题困扰,尤其是学生放学时间早于下班时间,家长不能每天都请假早退,只能寄希望于托管班。5+2课后延时服务理论上能缓解家长的压力,然而在实施的过程中并没有达到预期效果,成为最鸡肋的教育
...[详细]
-
来源:北青体育#国乒动身回国##国乒跟跳水队一起回国# 辛苦了,完成奥运五金包揽后,国乒今日启程回国,不参加闭幕式。在机场的还有中国跳水队,两支梦之队碰一起了~ 图源:@阚心童tyf)点击进入
...[详细]
-
热卖的“姜黄饮”并非人人适用2025-12-18 16:40:43 来源:武汉晚报 作者:张令旗
...[详细]
-
2024年8月10日13时56分,广西德天瀑布景区登高观瀑魔毯项目发生故障。经初步核实,截至18时30分,事故造成1名游客死亡,60名游客受伤其中,重伤1名,轻伤59名),受伤游客已送往医院治疗。
...[详细]
-
来源:中国新闻网 【#全红婵的玩偶装了一行李箱#】#全红婵晒跳水梦之队大合照# 今年巴黎奥运会,跳水梦之队收获8金2银1铜完美收官,结束奥运会之旅后,@全红婵 晒出了好多照片和视频,有自己的金牌
...[详细]
-
在自己的第四届奥运会上,马龙以一枚团体金牌完美收官。 北京时间8月9日,巴黎奥运会乒乓球男团决赛,由马龙/樊振东/王楚钦组成的中国队,以总比分3比0击败瑞典队,拿下乒乓球男子团体赛金牌。马龙也凭
...[详细]
-
【环球网报道】俄罗斯总统普京于12月19日举行年度记者会。综合塔斯社等媒体报道,记者会刚开始,普京就俄乌冲突作出最新表态。 塔斯社称,普京表示,俄方已准备好基于他2024年6月在俄外交部讲话时提
...[详细]
-
[美国男篮击败法国 夺得金牌]男篮决赛,美国男篮98-87击败法国,夺得金牌。库里三分12中8,得到24分,文班亚马得到全场最高的26分。 更多报道:“晚安”巴黎!库里最后时刻连中4记三分,助美
...[详细]

韩国总统李在明谈汉字教育,提到中国古籍《千字文》
青岛女导游嘲讽游客穷就不要出来 文旅局回应
宁波港燃爆集装箱系危险品货柜,多方回应
脑科学告诉你:为什么这么多学生一天到晚变得“死气沉沉”?
普京:俄方愿在乌克兰选举期间暂时停止打击