Skip to content
第六部分 学会使用工具

从Chatbot到Agent

本章内容提要:Chatbot -- 回答问题 / Copilot -- 辅助人在任务中工作 / Agent -- 有目标、能调用工具、能多步执行 / Workflow与Automation / Computer Use / 为什么能自动做事的AI更强也更危险 / 如何选择AI工具和模型

图解导读:AI产品形态变了,人的控制点也要变

Chatbot回答问题,Copilot陪你做事,Agent则可以把目标拆成步骤、调用工具并连续执行。能力越强,越不能只看"它会什么",还要看"它什么时候需要停下来问人"。

从Chatbot到Agent的能力阶梯
从问答到自主执行,AI的能力来自更长的任务链。

Agent的典型循环是目标、计划、执行、观察和调整。这个循环很有用,也更需要人类检查点:高风险操作要批准,方向跑偏要停止,最终责任不能交给自动化流程。

Agent工作循环:目标、计划、执行、观察、调整,以及批准和停止
能自动做事的AI更强,也更需要清楚的人工确认点。

Chatbot:一问一答

Chatbot是绝大多数人接触AI的第一站。你输入问题,AI回答。这个模式的核心特征是反应式交互:你不问,它不说。

从2022年底ChatGPT发布开始,Chatbot模式在全球范围内引发了AI应用的第一波浪潮。国内的文心一言、通义千问、Kimi、DeepSeek等产品也迅速跟进。

三个能力上限:

  1. 只能说,不能做 -- 纯Chatbot不能替你查实时数据、操作文件、执行代码
  2. 断裂的工作流 -- AI的工作空间和你的工作空间是隔离的。你需要手动复制粘贴它的输出
  3. 缺少环境感知 -- 它不知道你在用什么软件、光标在哪里、你已经做了什么

这三个上限不是缺陷,而是设计边界。正因为Chatbot"只会说不会做",它也是最安全的AI形态 -- 它最多给你一个错误的建议,但不会自动执行错误的操作。

Copilot:嵌入式辅助

Copilot的本质突破是把AI从聊天窗口"请"到了你的工作环境中。它能看到你正在做什么,并在合适的时机提出建议。

对比ChatbotCopilot
AI在哪里独立的聊天窗口你的工作软件内部
上下文你手动描述AI自动感知
交互方式你问它答它主动建议
控制权你自己执行你接受/拒绝建议

典型产品

  • GitHub Copilot / Cursor -- 代码编辑器中的AI辅助
  • Microsoft Copilot for 365 -- Office套件中的AI助手
  • Notion AI / 飞书智能伙伴 -- 笔记和项目管理中的AI辅助
  • WPS AI -- 国产办公套件中的AI写作助手

Copilot的价值在于减少上下文切换成本。你不需要在工作和AI聊天窗口之间来回切换,也不需要花时间描述你的工作环境 -- AI已经"看到"了。

Agent:自主多步执行

Agent是"你说目标,它去完成"。核心机制是Agent Loop

感知 -> 推理 -> 行动 -> 反馈 -> 循环直到任务完成

Agent Loop实例

你对Claude Code说:"帮我把这个项目的所有测试跑一遍,修复失败的测试。"

  1. Agent读取项目结构,发现使用pytest
  2. 运行pytest,发现3个测试失败
  3. 读取失败测试的错误信息,分析原因
  4. 修改源代码修复问题
  5. 重新运行测试验证修复
  6. 重复直到全部通过

注意这个过程中人类只做了一件事:定义目标。Agent自主完成了"感知-推理-行动"的完整循环。

Agent的信任边界问题:Agent自主执行十几步操作,其中的错误可能被后续步骤放大。2025年以来的Agent产品普遍采用分级信任机制:低风险操作自动执行,高风险操作需人工确认。中国信通院关于智能体的文章也指出,智能体具备自主感知、理解、规划、记忆、行动和使用工具的能力,能够自动化执行复杂任务[1]。能力越强,越需要清晰的边界和确认机制。

Workflow与Automation

Workflow:步骤预先定义好,AI只在每一步内部负责内容处理。比Agent更可预测、更可调试。你可以把Workflow想象成一条"有轨电车",路线是你定的,AI只负责在每一站做好自己的工作。

Automation:在满足特定条件时自动启动Workflow,无需人工触发。

Automation的铁律

自动化的操作影响范围越大,人工审核的节点就应该越多。自动分类邮件可以完全自动化;自动代你发送回复至少应该让你预览确认;自动发布到公网的内容更应该经过严格审核。这不是效率问题,而是责任问题。

Computer Use

AI通过"看屏幕、操作鼠标键盘"来使用计算机。不需要API接口 -- 它直接像人一样操作图形界面。2024年Anthropic首先发布了这一功能。

这是一个重要里程碑,因为它打破了"必须有API才能操作"的限制 -- 任何人类能通过图形界面完成的操作,AI理论上都能做。但安全风险也是最高的,因为AI可以操作你屏幕上的任何东西 -- 包括浏览器、邮件客户端、文件管理器。

当前的安全防线:

  • 沙箱执行 -- 在隔离环境中运行,限制影响范围
  • 敏感操作暂停 -- 涉及支付、删除、发送等操作时自动停下等待确认
  • 操作日志 -- 记录AI的每一步操作,供事后审查
  • 权限约束 -- 只开放完成任务所需的最小权限

能力-风险光谱

产品形态AI能做什么最坏后果人类控制度
Chatbot生成文字采纳错误建议完全控制
Copilot嵌入式建议接受不合适修改逐步审批
Agent多步工具操作文件被错误修改关键节点审批
Workflow预定义流程AI处理不准确流程设计时控制
Automation自动触发执行错误操作反复执行规则设计时控制
Computer Use操作图形界面影响任何GUI系统沙箱+暂停

不是越强大的AI产品形态就越好。正确的逻辑是"用最合适的",而不是"用最强的"。一个简单的问答用Chatbot就够了,没必要动用Agent。

选择AI工具的六个维度

  1. 任务类型与产品形态匹配 -- 简单问答用Chatbot,多步执行用Agent
  2. 模型能力匹配 -- 强推理选大模型,简单任务选轻量模型
  3. 成本考量 -- 分层使用不同模型,避免"杀鸡用牛刀"
  4. 速度需求 -- 交互式任务选快模型,后台任务可选慢但强的模型
  5. 隐私与数据安全 -- 敏感数据考虑本地模型或国内模型
  6. 中文能力 -- 特定中文场景(古诗文赏析、法律法规分析等)可能国产模型更优

国内AI产品生态

截至2025年,中国AI产品生态已经相当成熟。DeepSeek在推理能力上表现突出且完全开源,Kimi擅长长文本处理,通义千问在工具调用方面持续改进,文心一言在中文理解上有独特优势。CNNIC《生成式人工智能应用发展报告(2024)》显示,我国生成式人工智能产品和应用正在快速扩展,用户规模已达2.3亿人[2]。选择工具时不必盲目追求国外产品 -- 在很多中文场景下,国产模型的表现甚至更好。

本章核心回顾
  • 六种AI产品形态:Chatbot、Copilot、Agent、Workflow、Automation、Computer Use
  • 能力与风险同步增长,选择原则是"用最合适的"
  • Agent的核心是Agent Loop(感知-推理-行动循环)
  • Workflow比Agent更可预测,适合重复性任务
  • 选择工具从六个维度评估:任务类型、模型能力、成本、速度、隐私、中文能力

选择AI产品形态

我要查一个历史事件的日期,用Agent吧,它最强大!

?章节自测

Chatbot、Copilot、Agent三者的核心区别是什么?

?章节自测

'分级信任机制'在Agent产品中意味着什么?

思考练习

想一个你日常学习中重复做的任务。它更适合用Chatbot、Copilot还是Agent来完成?为什么?


参考文献


  1. 中国信通院董晓飞等. (2024). 智能体推动大模型应用普惠向实. https://finance.sina.com.cn/roll/2024-11-29/doc-incxsxxw8904248.shtml ↩︎

  2. 中国互联网络信息中心. (2024).《生成式人工智能应用发展报告(2024)》. https://www.cnnic.cn/n4/2024/1216/c88-11196.html ↩︎

从提问、学习、判断到智能协作