下载APP | 繁體版 | 发布广告 |常用工具

登录注册找回密码切换风格

我要发布

倍可亲倍可亲首页 › 新闻中心› 科技前沿 › 正文

DeepSeek是如何分析文本的，为什么有时会误解你

京港台：2025-2-5 09:09| 来源：丹江湖上钓鱼翁 | 评论( 7 )条 | 我来说几句

DeepSeek是如何分析文本的，为什么有时会误解你

来源：倍可亲(backchina.com)

　　那些2月3日有篇文章，批评DeepSeek会胡说八道，误导用户，因此比Chat GPT危险百倍，正在中文互联网构建“幻觉长城”。这篇文章揭示的问题确实存在。我1月底就发现了类似的问题。

　　我的观点是：

　　【1】它出错是因为：对于用户输入的有些文本，它无法正确理解，因此在推理思考就会出错。

　　【2】这是所有AI模型发展过程中必然出现的现象，不必苛求。AI模型毕竟才刚刚起步，未来还需要多年的训练（进化）。

　　【3】用户在使用时应该充分注意，尽量说清楚自己的需求，而不是把一个简单问题丢给它，完全依赖和相信它输出的结果。

　　为了说明这个问题，我们从AI模型如何理解文本开始说起：

　　一、AI模型的参数

　　AI模型动辄有几百、几千亿个参数。7B、14B……中的B就表示billion（10亿）个参数。参数越多，模型通常学习能力越强，但资源消耗也越大。

　　所谓的“参数”（Parameters），是机器学习模型（尤其是神经网络）的核心组成部分。它就像AI模型的"大脑细胞"。打个比方，想象你正在组装一个巨型的乐高机器人：

　　每个乐高积木 ≈ 1个参数；

　　积木的连接方式 ≈ 参数之间的关系；

　　最终组装的机器人 ≈ 完整的AI模型。

　　这样，参数越多，乐高积木越多，组装出来的机器人越精细，机器人能完成的动作越复杂。7B参数就相当于用70亿块乐高拼成机器人；14B参数就像用140亿块乐高拼成机器人。

　　为什么需要这么多参数？这是因为人类语言非常复杂。举个例子，"苹果"这个词可能表示：

　　- 水果（我要吃苹果）

　　- 手机品牌（新款苹果发布了）

　　- 公司名称

　　- 电影名称（《苹果》由范冰冰主演）

　　要让AI理解这些细微差别，就需要海量参数来建立多维度的关联。

　　例如要处理这句话："夏天在巴黎喝咖啡很浪漫"，AI模型的处理是：

　　近年来，AI模型处理参数的能力在不断增长。

　　参数量的增长，是为了覆盖更多知识维度。例如，一个14B参数的模型，存储了超过100种编程语言的语法规则；记忆了50万条常识知识；建立了10亿级的概念关联。

　　这样，等你向AI模型输入一句话时，它能根据自己的“知识”和参数，对这句话进行解析，去理解你的意思。

　　在实际的神经网络中：

　　以14B参数的模型为例，大约有40个这样的层；每层需要约3.5亿参数；加上词嵌入等其它参数，总数达到140亿。

　　参数越多，计算量越大，就越需要量化技术（如GPTQ、GGUF）来压缩参数，让大模型能在普通显卡上运行。

　　为什么7B模型比14B快那么多？这就像用精简版乐高套装（7B）和完整版（14B）拼模型的区别，参数越少运算速度自然越快，但细节表现力也会下降。

　　二、AI模型是如何解读用户输入的文本的

　　当用户在AI模型输入一段文本时，AI模型会对每句话进行解析，通过参数中的模式和关联来生成响应。我们举一个方言的例子：

　　他活像个五霸诸侯。

　　这是我家乡（河南省西南部）的一句方言，我不知道别的地方是否也有类似的说法。但我可以肯定，在网上不可能查到这样的方言用法。当地老百姓99%不知道他们日常所说的“wu ba zhu hou”怎么写。实际上，我从小到大一直困惑这个“wu ba zhu hou”到底是哪几个字，一直以为是“武霸猪猴”，形容一个人飞扬跋扈。一直到长大后才悟出来指的是春秋五霸，战国诸侯。

　　我告诉DeepSeek这是一句方言，但没告诉它这是哪里的方言。让它自己来分析。它是怎么分析的呢？它说：

　　假设这句话出现在山西/陕西方言中，模型的处理流程如下：

　　1、词语拆解与模式识别。即先把这句话拆解成很多语素，与自己的参数联系起来。

　　2、参数激活的“三明治结构”。

　　3、跨参数组的协同运算（以14B模型为例）

　　通过这样的流程，DeepSeek基本上正确理解了这句话的意思。

　　AI模型没有实际的知识库，参数更像神经元的连接强度。举两个对比案例：

　　关键差异是：模型不会真正「知道」五霸诸侯是谁，而是通过参数建立“五霸→权力→夸张比喻”的关联网络。

　　在分析文本时，参数量的优势体现在这三个层面：

　　1、细粒度模式捕捉

　　7B模型可能只能理解：五霸诸侯 ≈ 厉害的人

　　14B模型可以区分：五霸（历史具体性） + 诸侯（地域统治） → 强调权力范围的威风

　　2、长距离关联。

　　"他活像..." → (中间经过20层参数运算) → 联想到《白鹿原》中方言使用场景。

　　3、抗干扰能力。

　　当输入有噪声时，比如错误输入："他活像五八猪猴"。7B模型可能输出"像某种动物"；14B模型通过更多参数交叉验证，仍可能联想到正确表达。

　　但是，参数多≠真正理解，只是统计模式更丰富。就像给你一本方言词典（参数），但不生活在当地（具身体验），仍难完全掌握语言神韵。

　　三、为什么AI模型会犯错？

　　明白了AI模型是如何读懂文本的，也就很容易明白，为什么它会读不懂、误解一些文本。

　　如果用户输入的文本的字词的结构方式，AI模型从未见过，它就不能正确分析文本的意思。为了说明这个问题，我们举一个例子：

　　你楞得跟啥一样。

　　这也是我家乡的一句方言。我相信除了我家乡的人，没人知道这句话是什么意思。我们让DeepSeek来分析这句话。它是这么分析的：

　　1. 词汇拆解与参数激活。

　　2. 关键难点突破：“楞”的跨方言语义。

　　3. 参数空间的协同推理

　　即DeepSeek经过一番分析，认为这句话是批评对方固执倔强，或者指责对方发呆。

　　平心而论，DeepSeek这样分析肯定是没错的。但是在我家乡，这句话不是这个意思。在我家乡，“楞”是指人非常在意、喜欢打扮，喜欢穿漂亮的衣服，在别人面前炫耀自己的漂亮衣服。我觉得这个“楞”有点像“浪”的转音，但没有“浪”那么强烈，没有什么贬义，而是包含了一些褒义。比如过年的时候，长辈说晚辈：

　　你看他多楞，还没到过年，就开始穿新衣服了。

　　DeepSeek显然不知道这种意思，它的参数无法把“楞”和“爱打扮、爱漂亮”联系起来，因此它无法正确解读这句话。但是从“楞”的常见意思来说，它又正确地解读了这句话。

　　再举个极端的例子，如果某个部落中，说一种语言，但没有文字。现在把部落土著的发音用字母记下来，输入DeepSeek，它也不可能理解。

　　即DeepSeek已经尽其所能地去理解文本，但是相关知识的参数太少，导致它有时候无法把文本与正确的知识联系起来进行推理，结果得出了错误的结论。

　　我个人认为：

　　【1】在应用中出现的大多数错误，原因可能都在于此。并不是DeepSeek在故意瞎编，而是它的推理方法决定了，它只能给出这样的结果。

　　【2】相对于此前的很多“人工智障”模型来说，DeepSeek的推理能力确实很强大，容易让人误以为它说的都是对的。实际上并非如此。因此用它来完善思路、开阔思维、给文章润色是可以的，但完全依赖它来分析学术问题是不合适的，至少现在不行。它还需要不断进化（训练）。不过，可以预见，即便进化得再先进，在理解有些文本时，它也可能会出错。这很正常，人类自己理解时，也会出错。

　　【3】确实存在一个风险，即人们把DeepSeek输出的含有错误的文本当做正确的传播，久而久之，对大多数人产生了误导。这种情况其实之前就有，过去这些年，一些臭名昭著的自媒体自动生成了无数错误百出的劣质文档，四处传播。实际上，网上99%的文字都是垃圾。DeepSeek即便出错，也只不过是在这个大垃圾堆上又丢了一袋垃圾，相对于此前的模型来说，它生产的垃圾算少的。并且随着它不断进化，这种情况会慢慢改善。

　　还可以这么想：

　　DeepSeek在输出比较简单的知识方面，不太可能出问题；但是在输出复杂问题时可能会出错。那些容易被网上的劣质垃圾文字轻而易举地误导的人，根本就不会去阅读较深的分析文章，也就没有机会被DeepSeek误导。换言之，想被DeepSeek误导，也是有门槛的。

　　【4】在使用DeepSeek输出文本和编程时，一定要自己心里有数，详细地写出自己的需求，不能听任它放飞自我。比如编写程序，要写清楚让它每一步怎么做。如果放任它自己发挥的话，你可能会发现它编的程序不能用。

DeepSeek是如何分析文本的，为什么有时会误解你

DeepSeek是如何分析文本的，为什么有时会误解你

推荐：美国打折网(21usDeal.com) >>

更多科技前沿文章 >>

DeepSeek是如何分析文本的，为什么有时会误解你

DeepSeek是如何分析文本的，为什么有时会误解你

推荐：美国打折网(21usDeal.com) >>

更多科技前沿 文章 >>

更多科技前沿文章 >>