AI不是搜索引擎，也不是万能老师

本章内容提要：模型不是数据库 / 生成不是查找 / 流畅不等于正确 / 幻觉、遗漏、迎合与过度自信 / 四要素决定AI表现 / "看起来很好的答案"最危险

图解导读：把AI从"查答案"的位置上拿下来

很多误用都来自一个起点：把AI想象成会说话的搜索引擎。可它的基本动作不是从数据库里取出一个确定答案，而是根据上下文生成一段最可能成立的文字。这个差异一旦看清，后面关于幻觉、遗漏和核验的讨论就不再吓人。

生成不等于查找：数据库检索与模型生成的区别 — 搜索像查档案，生成像续写文本；两者都能有用，但风险完全不同。

因此，使用AI时最重要的不是"它说得像不像"，而是把它的回答拆成可以验证的断言。一个可靠的动作顺序是：抽取断言，找权威来源，交叉核验，最后决定标注、修改还是删除。

AI回答核验流程：抽取断言、找权威来源、交叉核验、标注或删除 — 越是流畅的回答，越需要把关键事实单独拎出来核验。

模型不是数据库

很多人对AI有一个直觉性的误解：它的脑子里装着一个巨大的数据库，你问它问题，它就去查一下返回答案。但AI不是数据库，它是一个经过大量文本训练出来的统计模型。

核心概念：大语言模型的本质

大语言模型（LLM）不是知识数据库，而是一个从海量文本中习得语言统计规律的概率模型。它的输出是基于上下文的概率推断结果，而非对确定事实的检索。这意味着它可能在任何时候输出一个"统计上合理但事实上错误"的回答。

它学到的是模式，不是事实。这就是为什么它可以准确地告诉你莎士比亚四大悲剧的名字，同时却会编造一个根本不存在的莎士比亚学者。

这个区别并非只是理论上的。2023年，纽约一位律师Steven Schwartz在法庭上提交了由ChatGPT生成的法律文书，其中包含六个完全虚构的案例引用。法官发现后对他进行了罚款处分^[1]。这位律师并非不够聪明，他只是错误地把AI当成了一个"会查案例的数据库"。

生成不是查找

AI的回答机制出乎意料地简单：它一次生成一个词，每次选择概率最高的那个。

AI的生成过程（极度简化版）

输入："请帮我解释什么是"

第1步：在所有可能的下一个词中，"机器"的概率最高 -> 选择"机器"

第2步：序列变成"请帮我解释什么是机器"，"学习"的概率最高 -> 选择"学习"

第3步：继续生成......如此反复，直到整段回答生成完毕。

这个机制常被概括为"下一个词预测"（Next Token Prediction）。国内关于大语言模型幻觉的综述也指出，大模型基于大规模语料和深度学习架构生成文本，强大的生成能力并不等同于事实校验能力^[2]。换句话说，模型看起来只是在"猜词"，但为了猜得准，它会形成某种对语言和世界模式的内部表征。

从"猜词"到"对齐"：现代模型不只是预测下一个词

上面描述的是模型的基础训练阶段。实际上，现代大语言模型在此基础上还经历了对齐训练（如RLHF，基于人类反馈的强化学习）：人类评估员对模型的多个回答进行打分排序，模型据此学习什么样的回答更有帮助、更安全、更诚实。这意味着你看到的AI回答不是纯粹的"统计猜词"结果，而是经过刻意训练使其更符合人类期望的输出。但这也带来一个副作用：对齐训练让AI变得更"讨好"用户，有时会以牺牲准确性为代价来给出你想听的答案 -- 这就是上面提到的"迎合"问题的技术根源。

这个机制解释了AI的很多行为特征：

语法完美：因为语法正确的文本在训练数据中远多于错误的
有时跑题：因为每一步只看前面的词，容易顺着"统计惯性"走偏
编造事实：因为目标是生成"统计上最合理的序列"，而不是"事实上最准确的序列"
风格一致：因为它学到的是"这类上下文中通常后面跟什么样的话"

理解了"生成"和"查找"的区别，你就不会再对AI的错误感到困惑 -- 它从来就不是在"查找"答案，它是在"创造"一个看起来最像答案的文本。

流畅不等于正确

人类有一个根深蒂固的认知偏差：我们倾向于相信表达流畅的信息。信息越容易被加工，我们越倾向于认为它是正确的。

在人类沟通中，这个经验法则大多数时候是有用的：一个人能把一件事说得清楚明白，通常意味着他对这件事有较深的理解。但在AI面前，这个经验法则彻底失效了。

AI最危险的特性：它犯错的时候不会降低表达质量。人类专家不确定时通常会切换到更谨慎的语气 -- "据我所知"、"不太确定但可能是"、"需要进一步核实"。AI没有这种信号，它用同样自信的语气说出正确的事实和编造的谎言。

国内研究者在《软件学报》发表的综述中把"幻觉"归纳为大语言模型可信应用中的关键风险之一：模型可能生成与输入、上下文或世界知识不一致的内容^[2:1]。这提醒我们一件关键的事：不要因为AI说得好听就相信它说得对。

实用建议：读完AI的回答之后，强迫自己找出至少一个需要核实的具体断言。不是泛泛地想"这个可能有问题"，而是找到一个具体的事实声明，然后去验证它。这个习惯一旦建立，你的"被骗"概率会大幅降低。

AI的四种常见失败模式

类型	表现	为什么难以发现
幻觉	生成不存在的事实、人物、文献	格式完美，每个零部件看起来都是真的
遗漏	省略关键信息而不告知	你很难注意到一个"不存在"的东西
迎合	附和用户的错误观点	结果是你"满意"地结束了对话
过度自信	不确定时仍给出确定性回答	AI对每件事的语气都一样自信

这四种模式经常同时出现，并且相互强化。比如：你问了一个包含错误前提的问题（"莎士比亚写《白鲸记》时在想什么？"），AI可能会迎合你的前提（不纠正莎士比亚并没有写《白鲸记》），然后编造一段看起来合理的文学分析（幻觉），同时省略任何表示不确定的措辞（过度自信），而且完全不提及遗漏了什么（遗漏）。

理解它们不是为了害怕AI，而是为了在使用时自动开启一种"校验模式" -- 就像你在马路上开车时会自然地检查后视镜，不是因为你害怕开车，而是因为你知道路上有风险。

四要素决定AI输出质量

AI最终给你的输出质量，由四个要素共同决定：

模型本身的能力 - 不同模型存在差异，但差异没有大多数人以为的那么大。顶级模型和中档模型之间的差距，远小于"好的使用方法"和"差的使用方法"之间的差距
上下文的质量 - 你给AI的背景材料越丰富、越准确，回答质量就越高。这就是为什么第4章专门讲"上下文工程"
工具的接入 - 连接搜索、代码执行等工具后，AI的能力边界大幅扩展。一个配备了搜索工具的中等模型，在事实性问题上可能比没有搜索的顶级模型表现更好
你的知识背景与使用方式 - 你对领域的理解深度决定了你能提出多精确的要求，也决定了你能在多大程度上识别AI的错误。同一份AI输出，在专家手中和在新手手中的价值截然不同

关键认识

一个用了正确方法的人配上中等水平的模型，产出的结果往往远好于一个用了错误方法的人配上最顶级的模型。国家网信办关于《生成式人工智能服务管理暂行办法》的答记者问也强调，生成式人工智能服务需要提高生成内容的准确性和可靠性^[3]。

AI的正确定位

定义：AI的正确定位

在学习和工作场景中，AI应该被视为一个高产出但需要质量控制的"内容供应商"。你是项目负责人，AI是执行者。你定义任务、提供材料、审查结果、承担责任。最终的决策权和责任永远在你手中。

三个核心动作：

引导：告诉AI做什么、怎么做、按什么标准做。AI没有自己的目标，你的引导就是它的方向盘
检查：AI的每一份输出都需要经过你的审查。审查的深度与用途的重要性成正比
约束：为AI的使用设定边界。哪些事情可以让AI做，哪些必须自己做，这条线由你来画

最简单的实践：AI告诉你的，再去另一个可靠来源验证一下。这个习惯是你和AI之间最重要的一道防线。

?章节自测

AI生成的文本读起来非常流畅且自信，这说明什么？

?章节自测

2023年纽约律师Steven Schwartz案例说明了什么问题？

◈思考练习

找一个你熟悉的学科领域，向AI提一个专业问题，然后用教科书或权威文献去核实AI的回答。你发现了什么？

↔验证AI输出的方式

AI说2024年中国GDP增速是5.2%，看起来很专业，应该是对的，直接引用到论文里吧。

参考文献

新浪财经（转引环球市场播报）. (2023). 美国两名律师引用ChatGPT虚构案例被罚5000美元. https://finance.sina.com.cn/stock/usstock/c/2023-06-23/doc-imyyfnhx0534059.shtml ↩︎
刘泽垣, 王鹏江, 宋晓斌, 张欣, 江奔奔. (2025). 大语言模型的幻觉问题研究综述.《软件学报》, 36(3), 1152-1185. https://www.jos.org.cn/html/2025/3/7242.htm ↩︎ ↩︎ ↩︎
国家互联网信息办公室. (2023). 国家互联网信息办公室有关负责人就《生成式人工智能服务管理暂行办法》答记者问. https://www.cac.gov.cn/2023-07/13/c_1690898326863363.htm ↩︎

AI不是搜索引擎，也不是万能老师 ​

图解导读：把AI从"查答案"的位置上拿下来 ​

模型不是数据库 ​

生成不是查找 ​

流畅不等于正确 ​

AI的四种常见失败模式 ​

四要素决定AI输出质量 ​

AI的正确定位 ​