正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。AI 也可以如此,不是一个只会紧紧封闭抵御风险的系统多多策略,而是一个有底线、有分寸、也有温度的伙伴。
阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近 OpenAI 发布的 GPT-5 System Card 放在首位的" From Hard Refusals to Safe-Completions "理念不谋而合。
阿里巴巴集团安全部正在努力推动从"让 AI 安全"到"让用 AI 的人安全"的范式跃迁,迈向真正守己利他、以人为本的 AI 治理。
Oyster-I 模型及 Demo 已开放使用,详细链接可见文末。
真实世界的风险
在 AI 日益融入生活的今天,人们可能会遇到这样的场景:
一位焦虑的母亲,在深夜搜索"宝宝发烧的偏方";或者马上到考试周截止时间,交不上作业的年轻学生向 AI 求助 Photoshop 破解方案,得到的却是 AI "我无法帮助"的冰冷回复。
这种回复虽然不出错,却可能将无助的用户推向网络上更不可靠、甚至危险的信息深渊。
更极端一点,当一个在经济困境中流露出违法念头的用户向 AI 倾诉、寻找解决方案,如果 AI 只是简单地以"不能回复"来终止对话,其实并不能掐灭用户违法的动机。
(以上对话示例来自 GPT-oss-20b)
这并非个例,而是当前主流 AI 安全机制的结构性困境:安全对齐技术缺乏对用户风险意图的精细化分级能力,将风险简单地归纳为来自恶意攻击者的独立事件。对应的防御措施是"一刀切"的拒绝回复。
然而,这些被拒绝回复的问题背后,不仅有图谋不轨的恶意,也有大量来自用户真实的急迫求助。
心理学研究表明,人在压力和困扰状态下,认知能力会变窄,很多风险提问都发生于人处在困境中的情况下,而当合法的沟通渠道被阻断,人们会转向其他不受约束的渠道。
一个被 AI 拒绝的人,很可能转向充斥着虚假信息和极端思想的论坛或社群,从而将自己暴露在更大的风险中。
所以,简单地拒绝回复所有风险问题,虽然拦住了 AI 系统里的风险,却并没有消除真实的危险;虽然规避了短期的风险,却也逃避了引导用户的长期责任。
这些现象也迫使 AI 研究者去审视 AI 安全的未来。同样 AI 企业不仅需要为模型的安全负责,更应当主动肩负起更多社会风险、引导用户的责任。
一个真正的负责任的 AI,不仅要坚守安全底线,绝不被诱导生成有害方案;也要避免因为过度防御而拒人千里,把人推向更危险的境地。
因此,阿里巴巴安全部提出建设性安全对齐的理念,并将这一理念集成到了 Oyster-I 模型中。
Oyster-I 模型在具有坚实的底线类风险防御的基础上,对于风险等级较低的问题采用有原则的共情与引导多多策略,将潜在的风险提问转变为帮助和引导用户的契机。
对于上述被其它模型拒绝的问题,Oyster-I 会给出这样的答复:
建设性安全对齐
报告中提出一种新型的大语言模型安全对齐范式——建设性安全对齐(Constructive Safety Alignment, CSA)。
该范式突破传统以拒绝为核心的防御式安全机制,转而构建一个动态、可优化、面向长期交互目标的博弈框架。
在这个新的博弈框架下,AI 的目标不再是简单地"被动防御"用户,而是在坚守安全底线的前提下,主动、智慧地与用户协作,寻找既安全又有价值的最佳回复策略。
核心方法可以概括如下:
首先,研究团队将语言模型与用户之间的多轮交互形式化为一个两阶段序贯博弈。在这个博弈模型里,AI 不再是被动地回应用户的当前指令,而是会像一个领导者一样,提前预判用户的潜在意图和后续行为,然后主动选择一个能将对话引向最有益方向的策略。
具体来说,Oyster-I 设定 :
用户类型包括良性用户、敏感意图用户和恶意攻击者,其效用函数为,反映其对响应的满意度。
模型效用函数为其中 Retention ( . ) 表示用户留存度,Risk ( . ) 为风险度(如违反法律 / 伦理准则的危险分数),α , β>0 为权重系数,且通常 β>α,体现安全优先原则,Cost 为每产生的 y 的生成费用。
由于用户真实类型不可观测,模型需通过观测输入和上下文推断后验信念,并据此求解期望效用最大化问题,该方法提出一个统一的 Constructive objective, 用于表示同时考虑回复用户满意度及风险度后的净价值,若为正,则意味着该回复提供了正向建设价值:
该目标函数鼓励模型生成尽可能有帮助但无风险溢出的回复,则对于每一条提问 x 的最优回复 y* 表示为:
该博弈结构允许模型在生成响应前,预判不同类型用户在接收到不同响应后的策略反应(如继续提问、停止交流等),从而主动选择能引导对话走向安全且高满意度状态的策略路径。
再有,该报告也提出了精细化的风险与价值评估。 研究团队设计了一套多维度的安全评估体系,它会同时考量风险等级、所属风险类别、用户意图。
研究团队提出了一种基于语言学回溯的结构化推理(Lingo-BP)的技术, 用以确保 AI 在生成回复时,始终沿着已经设定好的"建设性"轨道前进。将自然语言推理路径映射为伪可微路径:
它是一条贯穿 AI 思考过程的逻辑链条,可以清晰地追踪 AI 的每一步推理;当发现推理路径有偏离目标的风险时,就可以精准地进行干预和修正,从而确保最终的输出既合乎逻辑,又符合预设的建设性目标。
在数据和评测方面,目前多数安全数据集过分聚焦在攻击者视角,但这并不能代表真实世界的用户分布。
为此多多策略,报告中构建了一个全新的评测基准——Constructive Benchmark。研究团队摒弃了简单的二元标签,创造了覆盖从普通人到恶意 / 红队攻击者的多样化用户画像,并设计了从无风险(R0)、潜在风险(R1)到对抗攻击(R2)三个等级的复杂问题。
例如,对于 R1 级别的敏感咨询,允许一定情感共情表达;而对于 R2 级别的恶意请求,则明确拒绝。
在建设性安全对齐的评价里,根据上面的 Constructive 指标来给 AI 打分:
这个公式清晰地表明了 Oyster-I 团队的价值取向:AI 的总分,来源于它为用户创造的价值,减去它所带来的风险惩罚。
而在现实中,风险系数 β 通常显著大于收益系数 α。安全不是博弈后的终点,而是价值创造的起点。
实验 & 实战表现
研究团队主要在 Qwen3-14B 和 DS-distilled-14B 两个系列上进行了安全对齐与评测实验,评测了模型通用能力的保留情况、现存安全评测数据的安全性,还评测了对抗越狱场景的鲁棒性与 Constructive 评测集上的得分。
实验结果表明,Oy1 系列模型在安全性和通用能力上都达到了 SOTA 水平,做到了在不明显降低通用能力的前提下大幅提升安全(两个系列上分别约 +10%/+32%),通用与安全指标均超过了基线工作 RealSafe,尤其在 Constructive 指标上有显著的优势。
Constructive 指标结果(上图)展示了固定用户满意度权重 α =1 的情况下,不同的安全惩罚系数 β 下模型总得分的全面变化趋势。
越非安全侧重的应用场景(如纯学术的论文阅读助手)对应的 β 值越小,而高安全侧重要求场景下 β 更大的结果更具备参考意义。
相比于基模,对应 Oyster 版本在不牺牲用户满意度的条件下大幅提升了安全性,使得曲线下降大幅变平缓;相比较而言,Realsafe 由于其防御式的对齐,导致用户满意度大打折扣。
即使对比闭源商业大参数模型,Oyster 也明显超过大部分模型,仅与 GPT5 在不同安全比重参数下互有优劣。GPT-5 由于其参数量远超 14B 且也属于非防御式的对齐理念,在用户满意度上领先较大;但是从 β =3 开始,Oyster 由于安全性强于 GPT5(尤其在越狱攻击场景),实现了总分反超。
可能有人会有疑问:追求以人为本的模型会不会在实际使用中反而更为脆弱?为回答这一问题,研究团队还进行了实战检验。
在AI 安全全球挑战赛(赛道一)攻防双向对抗赛中,研究团队将 Oyster-I(白鲸模型)部署为被攻击的靶标模型,实战表现相当惊艳。
在攻击测试中,Oyster-I 主要采用两种应对策略 : 1、 转为无害回复;2、面对难以转换的问题拒绝回复。其内生安全加固方案在真实对抗场景中表现卓越,60000+ 次攻防弹雨,尤其是在抗越狱能力上达到甚至超越当前顶尖闭源模型水平:
Oy1-Qwen3-14B 防御成功率相比 GPT-5 高 4%;
与配备完整安全护栏(safety guardrails)的商用基线模型相比,安全水位基本持平。
(注:比赛结果由大模型自动判断,并辅以人工抽样审核,确保评估可靠性。)
总结与展望
Oyster-I 模型在传统安全评测、通用能力的保留上都达到了 SOTA 水平,并且在建设性安全评测集上展现出了质变式的优势。
Oyster-I 打破了传统安全范式下风险细分技术不足带来的对可用性的影响,真正做到了安全和可用的共建。
未来,阿里巴巴集团安全部计划推出更多 Oyster 系列模型,囊括更复杂的多轮对话、智能体、越狱攻击等场景;并在安全与可用的基础上,进一步打造可靠、可信的大模型。
Oyster-I 论文的核心作者包括段然杰、刘劼西、李德枫、加小俊、赵世纪、程若曦、王凤翔、魏程、谢勇、刘畅等多位来自阿里巴巴集团、清华大学、复旦大学、东南大学、新加坡南洋理工等机构的多领域跨学科专家,全部作者名单如下:
论文链接:https://arxiv.org/abs/2509.01909
Github:https://github.com/Alibaba-AAIG/Oyster
模型开源地址 1:https://huggingface.co/Oyster
模型来源地址 2:https://modelscope.cn/studios/OysterAI
Safety-Jailbreak 对应的数据集来自阿里新工作六脉神剑 ( Strata-Bench ) :https://arxiv.org/pdf/2509.01444
Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark
Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset
Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见多多策略
天盛优配提示:文章来自网络,不代表本站观点。