在 AI 时代,大语言模型(LLM)本质上就像一个巨大的数学函数:
Input → LLM → Output
但要真正用好这个函数,你必须理解两个核心概念:
- Token —— 模型处理信息的最小单位
- Context Engineering —— 管理模型上下文的工程方法
前者决定 AI 能读多少,
后者决定 AI 能读多好。
🧱 第一部分:Token —— 大模型背后的“文字压缩术”
很多人听过 上下文窗口(Context Window):
- GPT‑4o:约 128k Token
- Gemini 1.5 Pro:约 1M Token
但一个问题经常被忽略:
Token 到底是什么?
它和 字、词、句子到底是什么关系?
🔎 1. Tokenizer:AI 的“翻译官”
大模型并 不理解文字。
它只理解 数字向量。
因此在人类语言和模型之间,需要一个翻译层:
Tokenizer
它负责两个核心过程:
编码(Encoding)
文本 → Token → Token ID
例如:
人工智能
→ [人工][智能]
→ [3211, 8876]
解码(Decoding)
Token ID → Token → 文本
模型输出:
[3211, 8876]
→ 人工 智能
这就是 人类与 AI 交流的桥梁。
⚙️ 2. BPE 算法:如何训练 Tokenizer
Tokenizer 并不是人工定义的。
它通常通过一种算法自动训练:
BPE(Byte Pair Encoding)
算法流程:
1️⃣ 扫描海量文本
2️⃣ 统计字符组合频率
3️⃣ 合并高频组合
例如:
智 + 能
→ 高频出现
→ 合并为 Token:智能
最终形成一个 Token 词表(Vocabulary)。
为什么要这样做?
核心目标只有一个:
减少序列长度
因为 LLM 的计算复杂度与 Token 数量平方级相关。
压缩 Token 数量可以:
- 提高推理速度 ⚡
- 降低 GPU 计算量 💰
📏 3. Token 与文字的换算关系
Token ≠ 字。
由于压缩机制存在,Token 与文本并不是一一对应。
大致换算如下:
| 语言 | 换算比例 |
|---|---|
| 中文 | 1 Token ≈ 1.5 – 2 汉字 |
| 英文 | 1 Token ≈ 0.75 单词 |
| 英文字符 | 1 Token ≈ 4 字母 |
例如:
400k Token
≈ 60万 ~ 80万汉字
这就是为什么 Token 是 AI 成本计算单位。
🧠 第二部分:Context Engineering —— AI 的“信息管理术”
既然模型窗口越来越大,比如:
- Gemini 1.5 Pro
支持 100 万 Token
很多人就会产生一个误解:
既然窗口这么大,直接把所有资料丢进去不就好了?
现实是:
绝对不行。
⚠️ 为什么不能“暴力输入”?
在真实生产环境中,无脑输入会带来三个问题。
① 窗口限制
虽然百万窗口存在,但行业主流模型仍然有限:
| 模型 | 窗口 |
|---|---|
| GPT-4o | 128k |
| Claude 3 | 200k |
| DeepSeek V3 | 128k |
复杂业务文档往往 超过窗口容量。
② 信息干扰
输入过多信息会导致:
注意力分散
模型可能:
- 抓不到重点
- 产生幻觉
- 输出模糊回答
因此:
上下文质量 > 上下文数量
③ 成本爆炸
LLM 费用按 Token 计费。
成本 ≈ Token 数量
输入越多:
- 推理成本 ↑
- 延迟 ↑
- API费用 ↑
对于企业产品来说:
优化输入 = 提高利润率
🏗 Context Engineering:让 AI 更聪明的工程方法
为了解决这些问题,AI 工程领域提出了一个重要概念:
Context Engineering
定义:
在 不改变模型结构 的情况下
通过优化输入信息
让 AI 理解更准、成本更低
它已经成为 AI Agent 架构的核心技术之一。
🧩 四大核心策略
Context Engineering 主要包含四种技术。
1️⃣ Save(保存)
将重要信息 持久化存储。
例如:
- 用户偏好
- 历史记录
- 项目规则
典型案例:
- ChatGPT 的 Memory
实现逻辑:
重要信息
→ 外部数据库
→ 需要时加载
这样可以让 AI 从:
无状态 → 有状态
2️⃣ Select(选择)
从海量信息中 只选最相关内容。
有两种方式:
静态选择
固定规则始终存在:
例如:
- System Prompt
- 项目规范
.cursorrules
动态选择
根据用户问题动态检索。
典型技术:
RAG(Retrieval-Augmented Generation)
工作流程:
用户问题
↓
向量检索
↓
找到相关文档
↓
送入模型
就像:
AI 图书管理员只翻相关几页书
3️⃣ Compress(压缩)
当上下文接近极限时,需要自动压缩。
典型做法:
长对话
↓
自动总结
↓
保留核心信息
例如代码 Agent 中常见的:
Auto Context
当上下文超过 90% 时:
系统自动生成摘要
删除冗余内容
4️⃣ Isolate(隔离)
在 多智能体系统(Multi-Agent) 中尤其重要。
每个 Agent 拥有:
独立 Context
独立工具
独立历史
例如:
Lead Agent
↓
Sub Agent A
Sub Agent B
Sub Agent C
这样可以避免:
- 信息污染
- 推理干扰
- 任务混乱
📊 从 Token 到 Agent 架构
如果把 AI 系统比作建筑工程:
Token
就是最基础的:
砖块
它决定:
- 成本
- 计算规模
- 上下文容量
Context Engineering
就是:
建筑设计图
它决定:
- 信息结构
- AI 理解效率
- 系统性能
📌 总结
一句话总结:
Token 解决“AI 如何读”
Context Engineering 解决“AI 如何读得更好”
真正的 AI 工程能力,不在于:
你能写多长的 Prompt
而在于:
你能多优雅地管理上下文
当未来的 AI Agent 拥有:
- 长期记忆
- 信息筛选
- 自动压缩
- 多智能体协作
开发者的竞争焦点将不再是:
谁拥有更大的模型
而是:
谁能构建更聪明的 Context 系统
评论区