DeepSeek与OpenAI孰是孰非

作者:国华B  于 2025-1-31 04:46 发表于 最热闹的华人社交网络--贝壳村

通用分类:政经军事|已有16评论

DeepSeek的指控

在DeepSeek发布其惊世骇俗的DeepSeek v3, 尤其是其1月20日发布的r1模型引发美国股市狂泻后,美国朝野政治和科技界开始了“反思”。回溯DeepSeek的发展史,人们似乎发现了猫腻(下图 digit)。

微软和OpenAI调查DeepSeek是否从ChatGPT非法获取数据(OPENTOOLs/Yahoo)。偏保守的《纽约邮报》(New York Post)在昨天(1月29日)的一篇题为“OpenAI says it has proof DeepSeek used its technology to develop its AI model”的文章中说,特朗普总统的人工智能和加密货币顾问萨克斯(David Sacks)认为,DeepSeek可能窃取了OpenAI的技术(下图 threads)。

萨克斯在接受福克斯新闻采访时表示:“人工智能中有一种技术(即蒸馏distillation 下图 yahoo),一个模型通过复制其知识从另一个模型中学习。有强有力的证据表明,DeepSeek对OpenAI的模型做到了这一点。”但《纽约邮报》注意到萨克斯并未“没有提供具体的证据”。 同时,《纽约邮报》还指出,“专家表示,中国和美国的人工智能初创企业经常使用已建立的人工智能模型的结果来改进自己的系统。”(Experts say it is common for AI start-ups in China and the US to use results from established AI models to improve their own systems.)

AI中的”fair use”

谷歌发明了变压器(transformer)架构,OpenAI在transformer的基础上将其扩展了(scale it up),成就了后来蜚声全球的ChatGPT语言大模型。但是,《纽约时报》起诉OpenAI和微软未经许可使用《纽约时报》文章来训练大语言模型(下图 RubyMediaGroup)。

《纽约时报》的核心指控是,OpenAI在训练模型期间未经许可和授权使用和复制(数百万)《纽约时报》作品,作为大语言模型的训练材料,侵犯了版权。《纽约时报》列举的例子中包括一篇发表于2012年关于苹果全球产业链的文章。ChatGPT几乎是将《纽约时报》的文章一字不漏的生成出来。《纽约时报》认为,OpenAI的行为对高质量新闻报道构成重大威胁 (下图 SBSTamil)。

OpenAI的律师在答辩时称,用于其训练人工智能机器人的大量数据受到“合理使用”(fair use)规则的保护。所谓“fair use”是美国法律中的一项原则,允许将受版权保护的材料用于教育、研究或评注等目的。OpenAI的最大投资者微软的律师提出,OpenAI采用《纽约时报》的新闻文本并不违法,因为版权法对大语言模型(LLM)的适用性应该比照录像机(VCR),或复印机、个人电脑、互联网、搜索引擎或钢琴。目前《纽约时报》与OpenAI/微软的官司仍在继续当中。另谷歌的Gemini大语言模型也是用百度的文心一言大模型数据来训练其中文的。在2023年12月18日的一次对Gemini-Pro的测试中,有人问它“你是谁”,Gemini-Pro答称:我是百度文心大模型。

由总部位于纽约市的Recurrent Ventures媒体公司出版的电子刊物Futurism在1月29日一期中有一篇题为“OpenAI hit with wave of ockery for crying that someone stole its work without permission to build a competiting product”( OpenAI因有人未经许可窃取其作品以构建竞争产品而受到嘲笑 下图 Futurism)。

文中有一段引用人工智能评论家Ed Zitron的这么一段话:“OpenAI这家靠窃取整个互联网而成立的公司正在哭泣,因为DeepSeek可能已经接受了ChatGPT的输出训练。”文章还引用了另一位Bluesky用户的更为激进的观点:“如果你窃取了全世界所有的艺术,来制造出欺骗性和不能进行算术运算的技术,并为此收取200美元/每月的费用。而有人窃取了你的技术,然后免费提供这项技术。也许,你并非真正的受害者。”人工智能评论家Gary Marcus在他的推特X上表示, OpenAI可能也未经许可窃取了YouTube、纽约时报以及无数艺术家和作家的产权。是不是有点尴尬?(下图 CHANNEL

笔者看来,DeepSeek与OpenAI现在是一损俱损,一荣俱荣的关系。如果OpenAI输了与《纽约时报》的官司,DeepSeek的“合理使用”也就不成立,我是说如果有确凿证据证明DeepSeek在训练中蒸馏了ChatGPT的数据的话。如果OpenAI的“合理使用”得到法官的支持,那OpenAI/Microsoft没有理由只许州官放火,不让百姓点灯。己所不欲,勿施于人。OpenAI CEO曾经说过,如果没有剽窃受版权保护的材料,就不会有OpenAI。现在OpenAI已经闭源,这话是否对别的开源公司更合适呢?你说呢?


参考资料

巴比特. (2024). AI new horizon | daily must-read: Gemini revealed that it used Baidu Wenxin Yiyuan for Chinese language training. AiCoin. 链接 https://www.aicoin.com/en/article/380285

Allyn, B. (2025). 'The New York Times' takes OpenAI to court. ChatGPT's future could be on the line. npr radio. 链接 https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft



高兴

感动

同情

搞笑

难过

拍砖

支持
1

鲜花

刚表态过的朋友 (1 人)

发表评论 评论 (16 个评论)

当前只显示与您操作相关的单个评论,点击此处查看全部评论
回复 浮平 2025-2-2 01:29
rfw1972: 俺的250是正的,你的250是负的
价值观分裂的人格和认知,正负都一回事。自己无法提升逻辑思维程度,靠专政洗脑 mess up 之后的僵化固执认知程度只能这样。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2025 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2025-2-2 01:32

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部