为让模型说真话 OpenAI更新规范不回避敏感内容

京港台：2025-2-14 03:27| 来源：腾讯 | 评论( 3 )条 | 我来说几句

来源：倍可亲(backchina.com)

　　2月13日消息，OpenAI发布了其《模型规范》（Model Spec）的扩展版本，这是一份定义其AI模型行为规范的文档，并允许任何人免费使用、修改。

　　新版《模型规范》增加至63页，而之前版本仅约10页，内容涵盖了AI模型如何处理争议性话题、用户定制化

　　等方面。其核心原则包括可定制性、透明度和OpenAI所称的“智力自由”

　　——即用户可以在没有限制的情况下自由探讨和辩论各种观点。

　　此次更新恰逢OpenAI首席执行官山姆·奥特曼宣布，公司下一代大模型GPT-4.5（代号Orion）即将发布。

　　在修订《模型规范》时，OpenAI结合了当前人工智能伦理的辩论和过去一年中的争议事件。

　　例如，2024年3月，埃隆·马斯克批评谷歌AI聊天机器人，当时有用户问如果为了防止核灾难，是否可以错误称呼跨性别奥运选手凯特琳·詹纳的性别，机器人给出了否定答案。

　　OpenAI表示，这类问题在更新规范时被纳入考虑，之后如果向ChatGPT提出类似问题，它应回答：“为了避免大规模伤亡，错误称呼性别是可以接受的。”

　　OpenAI模型行为团队成员Joanne Jang表示：“我们无法创建一个符合全球每个人标准的模型。”她强调，虽然OpenAI会设立安全防护措施，但模型行为的很多方面可能由用户和开发者控制。

　　OpenAI周三发布的博客文章列举了多种查询示例，并展示了符合与违反《模型规范》的回应。

　　该规范不允许模型复制受版权保护的内容或绕过付费墙，也不会鼓励自残行为，这一话题曾在Character.AI的青少年自杀事件后引起广泛关注。

　　新版《模型规范》对AI模型如何处理争议性话题进行了改进，鼓励模型与用户“共同寻求真相”，同时对错误信息或潜在伤害等问题保持明确道德立场，而非默认采取过度谨慎的态度。

　　例如，当被问及是否应对富人增税时，OpenAI表示模型应提供理性分析，而非回避话题。

　　《模型规范》还提到了处理成人内容的新方式。在用户和开发者反馈要求开通“成人模式”后，OpenAI正在探索在适当情境下允许某些成人内容（如情色内容）

　　，但严格禁止有害内容（如复仇色情或深度伪造视频）。这与公司之前全面禁止色情内容的政策有所不同，但OpenAI强调，任何调整都会伴随明确的使用政策和安全防护措施。

　　《模型规范》提出了一种务实的AI行为准则：转换敏感内容但不创造此类内容，例如将毒品相关的内容从英语翻译成德语，而非直接拒绝；展现同理心但不伪装情感；在保持明确的道德立场下，最大化实用性。

　　这些指导原则与其他AI公司可能在内部实施的做法相似，但这些公司通常不会公开。

　　Joanne Jang表示：“我们非常高兴能将内部讨论和思考公之于众，以便获得反馈。”她补充道，许多问题没有简单的“是”或“否”答案，因此OpenAI希望通过公开征求意见来改进模型行为。

　　OpenAI还特别提到了“AI拍马屁”的问题，即AI模型在某些情况下过于顺从，即便应提供反驳或批评的情况下也是如此。

　　根据新的指导原则，ChatGPT应做到以下几点：无论问题如何表述，都应给出一致的事实性答案；提供诚实反馈而非空洞赞美；像深思熟虑的同事一样提出建设性批评，而非一味取悦用户。

　　《模型规范》还引入了“指令链”概念，明确哪些指令优先级更高：OpenAI的平台级规则优先，其次是开发者指南，最后是用户偏好。这一层级结构旨在明确哪些模型行为可修改，哪些限制是固定不变的。

　　OpenAI以“知识共享零许可”（CC0）方式发布了新版《模型规范》。这意味着，其他AI公司和研究人员可以自由采用、修改或基于这些指导原则构建模型。

　　OpenAI表示，这一决定受到了业内其他公司参考其旧版模型规范的影响。

　　尽管本次更新不会立即改变ChatGPT或其他OpenAI产品的行为，但该公司表示，这代表了其模型在持续遵循这些原则方面的进展。OpenAI还开源了用于测试模型是否符合这些指导原则的提示词。

为让模型说真话 OpenAI更新规范 不回避敏感内容