研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容南宁市某某贸易制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功南宁市某某贸易制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
当地时间12月5日,约旦、阿联酋、印度尼西亚、巴基斯坦、土耳其、沙特、卡塔尔和埃及八国外长发表联合声明,对以方有关“将拉法口岸单向对外开放、把加沙地带居民送往埃及”的表态表示关切。 外长们强调,
...[详细]
-
王力宏子女近况惹人担忧,大女儿已经11岁,不见李靓蕾送孩子上学
最近邱泽和许玮甯在台北一家酒店补办了婚礼,超400位宾客到场为他们庆贺,现场气氛温馨又热闹,其中一位宾客的出现引发外界关注,正是王力宏的前妻李靓蕾。王力宏和李靓蕾离婚风波闹得沸沸扬扬,作为李靓蕾的闺蜜
...[详细]
-
看到前几天大家在评论区里,热火朝天地讨论冬天穿裙子如何保暖、怎么选裤袜。如果要问今年冬天最火的裙子,格纹裙一定榜上有名。它的选款,很大程度会决定风格:如果喜欢浪漫波西米亚风,薄纱款是首选;如果想走不羁
...[详细]
-
对于绝大多数的女性来说,没有必要在衣柜里添置那些价格特别高昂的服饰,找对一些性价比高的服装,挑对最适合自己的单品,才是穿衣的要义所在。衣服选对不选贵,下面这些就是很适合普通人的造型,选用的颜色不会太夸
...[详细]
-
更5集收视破2!柳岩成功让观众入坑,连看4集后,央视这次押对宝
文案|冻冻编辑|黄小影多久没有看过一部精彩的都市职场剧了?相比于偶像剧、悬疑剧,这类题材往往更贴近观众的生活,只要拍得好,还是很容易引起共鸣的。只不过这两年都市职场剧悬浮问题太严重,让人很久都没有眼前
...[详细]
-
吃什么可以帮助缓解脂肪肝?抗性淀粉或是肝脏的“天然清洁工”2025-12-03 16:20:40 来源:国家应急广播微信公众号
...[详细]
-
气温下降后,人们开始本能地追求一种柔软的包覆感。今年的softcore趋势也让人们重新审视柔软在穿衣中的意义——让身体和情绪有一个可以落脚的地方。就像冬天的毛绒单品,从来不是同一种美。不同材质、长度与
...[详细]
-
冬季的穿衣难度相较于其他几个季节来说,确实高了一些,但是,也并非没有任何的捷径可走。大家还是可以重点挑选出一些自己能够掌控的单品,搭配出舒适的穿搭。冬季的穿衣难度稍微高一些,大家可以采用固定的单品,塑
...[详细]
-
央视网消息焦点访谈):今年进入冬季,不少人都出现了感冒发烧的症状。中国疾病预防控制中心最新发布的《全国急性呼吸道传染病哨点监测情况》显示,目前,全国整体处于流感高发期,部分省份已达流感高流行水平。
...[详细]
-
晚上好啊。我们几乎每年冬 天都会聊一下裙子的搭配。我猜很多人也和我一样,买了很多裙子,也不希望一到冬天就全收起来。其实啊,漂亮小裙子也一定是春夏的专属呢,有些裙子的保暖性也被我们低估了。比如,防风厚实
...[详细]

欢迎来到“嬷学”时代:他很惨,很美,我也是
刚刚,新疆突发6.0级地震!网友:“震感强烈”
今年冬天最火搭配:毛衣+毛衣,放松穿更好看!