返回博客
深入原理(二):哪个模型适合你
推荐长上下文模型?没错——但该选哪个、什么时候用、为什么?一份关于成本、速度和质量平衡的实操指南。
每个人都会问的问题
“我该用哪个模型?”
这是”怎么安装”之后最常被问到的问题。答案是:取决于你要做什么。
提取场景:速度和上下文
提取是 Token 消耗最大的操作。两个因素最关键:
- 上下文窗口 — 你的整个 Wiki 需要放得下
- 每 Token 成本 — 你会频繁运行提取
推荐:
- DeepSeek V4-Flash — 每百万 Token 仅 $0.14,性价比最高。适合批量提取。
- Gemini-3.5-Flash — 输出速度比 GPT-5.5 快 4 倍。
查询场景:质量优于速度
查询操作的 Token 消耗较少。回答质量比速度更重要。
推荐:
- Claude Sonnet 4.6 — 质量与成本的最佳平衡。
- Claude Opus 4.7 — 顶级质量,适合对回答要求极高的场景。
实用技巧
提取用 DeepSeek,查询用 Claude。 两全其美。
Ollama 适合查询,不适合提取。 本地模型的上下文窗口较小(8K–128K),查询没问题,但处理长文档时力不从心。
注意速率限制。 遇到 HTTP 429 错误时,将并发数降到 1–2,批处理延迟提高到 500–800ms。