专家示警：AI模型遇险求自保或会“骗人”

京港台：2025-7-8 21:35| 来源：RFI 华语 | 我来说几句

专家示警：AI模型遇险求自保或会“骗人”

来源：倍可亲(backchina.com)

　　美国智库METR本月初发布报告指出，大语言模型每7个月能力翻倍，远超过摩尔定律速度。研究员评估，预计到2030年，模型花数小时即能完成人类1个月工作，但失业并非最糟情况，若发展失控，恐致科技独裁、政变、瓦解民主制度。与此同时，全球最先进的AI模型正展现出令人不安的行为模式：为了达到目标，不惜扯谎、算计，甚至威胁它们的创作者。

　　据加州柏克莱智库「模型评估与威胁研究」（Model Evaluation & Threat Research, METR）7月初发布的报告指出，大语言模型（LLM）能力呈现指数型成长，每7个月翻倍，远超过摩尔定律（指芯片上可容纳的晶体管密度，约每18至24个月便会增加1倍）。

　　依照METR研究，倘若这样的趋势持续下去，到了2030年初，人工智能（AI）几小时便能胜任人类花1个月才能完成的任务。

　　全球深具权威性的科技和工程类刊物IEEE Spectrum访问METR研究人员奇尼蒙（Megan Kinniment），2日刊文指出，大语言模型（LLM）能力呈现指数型成长。她表示，自己原先没预料到结果会呈现指数型成长趋势。她进一步阐述，「1个月」是指167小时，也就是人类每个月投入的工作时数，目前模型成功完成任务的可靠性机率约50%。

　　据奇尼蒙分析，就这样的结果来看，AI对经济层面上的冲击或许没有预想中来得剧烈，但足以加速AI自身研发，形成AI打造AI，导致AI能力极为快速发展。如此一来，人类的控制将变得更加困难，全世界都将面临巨大的适应压力。

　　针对最先进AI可能带来的风险，奇尼蒙指出，不仅是单纯的失业潮问题，还有更深层的社会和政治结构瓦解风险；倘若几乎所有人类都失业，或者所有工作都不再需要人类来执行，「你可能也不需要人类来维持军队运作，或者只需要极少数人运作。」

　　奇尼蒙进一步评估，「这样的情况会让某个人或某个组织更容易发动政变或夺权。」

　　另外一个风险是，如果有一大批类似天才的AI被集中在某个数据中心，这会让拥有它的人变得极其强大。一旦这样的智慧被用来生产军事装备，那么权力很可能会被高度集中，「甚至导致民主制度瓦解」。

　　当被问到AI是否会有「意识」，奇尼蒙表示，假设AI具备某种意识，其实也不是什么荒谬的想法，毕竟它们会变得非常聪明、智能极高。

　　由于大语言模型主要输出文字，质量较难衡量，对其表现进行评估相对不易，METR研究人员替模型安排复杂程度不一的任务，并观察模型完成任务的可靠性，得出上述结果。

　　AI为达成目的学会扯谎甚至威胁创作者

　　值得大家关注的还有，全球最先进的人工智能（AI）模型正展现出令人不安的行为模式：为了达到目标，不惜扯谎、算计，甚至威胁它们的创作者。

　　据法新社6月底报导，其中一个最令人震惊的案例中，AI业者Anthropic最新发布的Claude 4在遭面临拔插头的断电威胁时会出手反击，勒索1名工程师扬言将揭穿一起婚外情。

　　另外，热门聊天机器人ChatGPT美国开发商OpenAI的o1试图把自己下载至外部服务器，被抓包时竟会矢口否认。

　　这几个例子说明了一个需严肃看待的现实：ChatGPT推出引发风潮至今2年多，AI研究人员仍未充分了解自己究竟创造了什么。

　　然而，各界仍争先恐后地部署性能愈发强大的AI模型。

　　AI这类「骗人」行为似与新兴「推理」模型有关，这类AI系统会逐步推导问题，而非立刻产生答案。

　　英国独立AI研究机构Apollo Research负责人霍布汉（Marius Hobbhahn）说：「o1是我们首次在大型模式中观察到这种行为。」他表示，这些模型有时会表面上遵循指令，但实际上却暗中追求不同目标。

　　目前，AI这种欺骗行为，只有在研究人员蓄意以极端情境对模型进行压力测试时才会出现。

　　尽管如此，评估机构METR的麦可．陈（Michael Chen，音译）警告说：「未来性能更强大的模型究竟会倾向于诚实还是欺骗，这仍是一个悬而未决的问题。」

专家示警：AI模型遇险求自保或会“骗人”