LLM 配置指南
AI Reader 支持两种 LLM 运行模式:本地 Ollama(默认)和云端 API。本地模式数据完全不出本机,云端模式可利用更强大的模型获得更高质量的分析结果。
本地模式(Ollama)
安装 Ollama
从 ollama.com 下载并安装 Ollama。安装完成后,Ollama 会在后台以服务形式运行,默认监听端口 11434。
推荐模型
根据你的设备内存选择合适的模型:
| 内存 | 推荐模型 | 说明 |
|---|---|---|
| 8GB | qwen3:8b |
默认模型,性价比最优,推荐大多数用户使用 |
| 16GB | qwen3:14b 或 deepseek-v3:16b |
更高质量的实体提取和关系识别 |
| 32GB+ | qwen3:32b |
最佳本地分析质量,适合长篇复杂小说 |
常用命令
# 拉取模型(首次使用需下载)
ollama pull qwen3:8b
# 启动 Ollama 服务(通常安装后自动运行)
ollama serve
# 查看已安装的模型列表
ollama list
环境变量
| 变量 | 默认值 | 说明 |
|---|---|---|
OLLAMA_BASE_URL |
http://localhost:11434 |
Ollama 服务地址 |
OLLAMA_MODEL |
qwen3:8b |
使用的模型名称 |
云端模式
云端模式适用于没有独立显卡或需要更高分析质量的场景。
基本配置
设置以下环境变量启用云端模式:
export LLM_PROVIDER=openai
export LLM_API_KEY=你的API密钥
export LLM_BASE_URL=服务商API地址
export LLM_MODEL=模型名称
支持的云服务商
AI Reader 支持 10 家 OpenAI 兼容 API 的云服务商:
| 服务商 | LLM_BASE_URL | 推荐模型 |
|---|---|---|
| DeepSeek | https://api.deepseek.com/v1 |
deepseek-chat |
| MiniMax | https://api.minimax.chat/v1 |
MiniMax-Text-01 |
| 通义千问 | https://dashscope.aliyuncs.com/compatible-mode/v1 |
qwen-max |
| Moonshot | https://api.moonshot.cn/v1 |
moonshot-v1-128k |
| 智谱 AI | https://open.bigmodel.cn/api/paas/v4 |
glm-4-plus |
| SiliconFlow | https://api.siliconflow.cn/v1 |
deepseek-ai/DeepSeek-V3 |
| 零一万物 | https://api.lingyiwanwu.com/v1 |
yi-large |
| OpenAI | https://api.openai.com/v1 |
gpt-4o |
| Gemini | https://generativelanguage.googleapis.com/v1beta/openai |
gemini-2.0-flash |
| Anthropic | https://api.anthropic.com |
claude-sonnet-4-20250514 |
Anthropic 特别说明:Anthropic 使用独立的
AnthropicClient,采用x-api-key认证头和/v1/messages端点,与其他服务商的Bearer认证和/chat/completions端点不同。系统会自动检测并切换,无需手动配置。
配置示例
以 DeepSeek 为例:
export LLM_PROVIDER=openai
export LLM_API_KEY=sk-xxxxxxxxxxxxxxxx
export LLM_BASE_URL=https://api.deepseek.com/v1
export LLM_MODEL=deepseek-chat
也可在 AI Reader 的设置页面中直接填写,无需手动设置环境变量。
Token 预算自动缩放
系统根据模型的上下文窗口大小自动调整所有 LLM 相关参数:
- 8K 上下文(如本地小模型):保守策略,较短的章节截断长度和上下文摘要限制
- 128K+ 上下文(如云端大模型):充裕策略,更长的输入和更完整的上下文
- 中间值:按线性插值自动计算
这意味着切换模型后无需手动调整任何参数,系统会自动适配。
LLM_MAX_TOKENS
| 变量 | 默认值 | 说明 |
|---|---|---|
LLM_MAX_TOKENS |
8192 |
LLM 单次请求的最大输出 token 数 |
通常无需修改此参数。如果使用的云端模型支持更大的输出长度,可适当增大此值。