从入门到前沿,系统性掌握AI智能体技术 — 含精选论文解读
智能体的定义:感知环境→做出决策→执行动作的自主循环。对比传统软件 vs AI智能体的根本区别。
大语言模型如何处理文本:Token化 → Transformer 前向传播 → 自回归生成。理解温度、top_p、system prompt的作用。
系统提示词编写、Few-shot示范、思维链CoT、角色设定。好的提示词 = 好的智能体。
Function Calling 机制:模型输出结构化参数 → 调用外部API → 结果回填。智能体与世界交互的关键接口。
向量检索 + 上下文注入。Chunk策略、Embedding模型选型、重排序Rerank。让智能体掌握私有知识。
思考→行动→观察的自主循环。ReAct框架:推理轨迹 + 动作执行 + 环境反馈。多步推理与记忆管理。
Model Context Protocol — 标准化智能体与工具的通信协议。Tool/Resource/Prompt三种原语。
AutoGen、CrewAI、ChatDev等框架。角色分工、对话调度、任务分解。多个智能体协同解决复杂问题。
Chain-of-Thought → Tree-of-Thought → Graph-of-Thought。通过结构化推理路径提升智能体能力。
从人类反馈中强化学习。偏好建模、DPO/GRPO、宪法AI。让智能体行为符合人类价值观。
状态空间模型:O(n) 复杂度替代 Transformer O(n²)。选择性SSM,线性时间的序列建模。
精选AI智能体领域最具影响力的研究论文,每篇附核心解读。
作者:Vaswani et al., Google
引入Transformer模型,用自注意力机制替代RNN/LSTM。奠定了当前所有大语言模型的基础架构。
💡 要点:Scaled Dot-Product Attention + Multi-Head → 并行计算 + 全局依赖捕捉
作者:Lewis et al., Facebook AI
将检索与生成结合,从外部知识库获取事实信息后生成回答。解决LLM幻觉问题的核心方法。
💡 要点:知识存在外部数据库里,模型只存"检索器"——可验证、可更新
作者:Wei et al., Google
让LLM在回答前展示中间推理步骤,显著提升复杂推理任务的表现。无需额外训练,只需提示。
💡 要点:不要只给答案,让AI说"逐步思考"——思维链
作者:Yao et al., Google/Princeton
推理与行动交替进行的框架——智能体在推理轨迹和动作执行之间循环,与环境交互。
💡 要点:推理与行动交替进行——智能体的核心工作模式
作者:Ouyang et al., OpenAI
通过人类反馈+强化学习训练模型遵循指令。RLHF的奠基性工作——对齐研究的起点。
💡 要点:模型能力 ≠ 模型可用性——对齐才是产品化的关键
作者:Schick et al., Meta AI
让LLM学会自己决定何时调用外部工具(搜索、计算器、翻译等)。工具使用的自监督学习。
💡 要点:不需要自己"写"工具——"学会"调用现有工具才是关键
作者:Gu & Dao, CMU/Princeton
状态空间模型(SSM)的突破:选择性SSM实现O(n)复杂度序列建模,挑战Transformer统治地位。
💡 要点:Transformer注意力O(n²)是次优的——线性复杂度模型正在崛起
作者:Wu et al., Microsoft
多智能体对话框架:多个LLM智能体通过对话协作完成任务。可定制的角色、工具、对话模式。
💡 要点:多智能体协作是处理复杂任务的关键路径
作者:Bricken et al., Anthropic
用稀疏自编码器(SAE)分解模型内部表示,找到"单一语义特征"。可解释性研究的关键进展。
💡 要点:打开模型"黑箱"——理解神经网络的内部表示