深入解析（2）：选哪个 LLM 处理你的 Wiki

返回博客

2026年5月21日

深入解析（2）：选哪个 LLM 处理你的 Wiki

长上下文模型处理 Wiki 的方式各不相同。Karpathy LLM Wiki 跑在 DeepSeek、Gemini、Claude、GPT、Ollama、LM Studio 上——何时用谁、成本几何。

深入解析

每个人都会问的问题

“我该用哪个模型？”

这是”怎么安装”之后最常被问到的问题。答案是：取决于你要做什么。

提取场景：速度和上下文

提取是 Token 消耗最大的操作。两个因素最关键：

上下文窗口 — 你的整个 Wiki 需要放得下
每 Token 成本 — 你会频繁运行提取

推荐：

DeepSeek V4-Flash — 每百万 Token 仅 $0.14，性价比最高。适合批量提取。
Gemini-3.5-Flash — 输出速度比 GPT-5.5 快 4 倍。

查询场景：质量优于速度

查询操作的 Token 消耗较少。回答质量比速度更重要。

推荐：

Claude Sonnet 4.6 — 质量与成本的最佳平衡。
Claude Opus 4.7 — 顶级质量，适合对回答要求极高的场景。

实用技巧

提取用 DeepSeek，查询用 Claude。 两全其美。

Ollama 适合查询，不适合提取。 本地模型的上下文窗口较小（8K–128K），查询没问题，但处理长文档时力不从心。

注意速率限制。 遇到 HTTP 429 错误时，将并发数降到 1–2，批处理延迟提高到 500–800ms。

在 GitHub 上查看

相关链接

在 Obsidian 安装插件 GitHub 反馈建议问题 / Bug

接下来读什么

→ 深入解析（1）：从 3000 行到 300 行，插件核心的重构 → 深入解析（3）：砍掉 prompt 里 20 万字符，摄入延迟下降 → 入门必读（4）：你的前 100 个 Wiki 页面，从零开始