模型测评:Artificial Analysis 指标
公开 LLM 指标聚合展示,包含智能、代码、数学、速度、价格、延迟和性价比等维度。
智能
Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)、Anthropic Claude Opus 4.8 (Adaptive Reasoning, Max Effort)、OpenAI GPT-5.5 (xhigh) 在 Artificial Analysis Intelligence Index 中排名靠前。
输出速度
Inception Mercury 2、IBM Granite 3.3 8B (Non-reasoning)、IBM Granite 4.0 H Small 的输出速度更高,适合强调响应速度的场景。
智能
Artificial Analysis Intelligence Index · 越高越好
Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)
代码
Artificial Analysis Coding Index · 越高越好
Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)
数学
Artificial Analysis Math Index · 越高越好
OpenAI GPT-5.2 (xhigh)
速度
输出 tokens/s · 越高越好
Inception Mercury 2
各维度 Top 3 差距
每个维度以第 1 名为 100,对比第 2、3 名与头名的接近程度。
智能 Top 5
直接对比头部 5 个模型的实际分数,比占比图更适合看排名差距。
智能
Artificial Analysis Intelligence Index · 越高越好
显示前 10 项,完整模型名见图表下方列表。
代码
Artificial Analysis Coding Index · 越高越好
显示前 10 项,完整模型名见图表下方列表。
数学
Artificial Analysis Math Index · 越高越好
显示前 10 项,完整模型名见图表下方列表。
速度
输出 tokens/s · 越高越好
显示前 10 项,完整模型名见图表下方列表。
混合价格
每 100 万 tokens 混合价格 · 越低越好
显示前 10 项,完整模型名见图表下方列表。
输入价格
每 100 万输入 tokens · 越低越好
显示前 10 项,完整模型名见图表下方列表。
输出价格
每 100 万输出 tokens · 越低越好
显示前 10 项,完整模型名见图表下方列表。
首响延迟
Median time to first token · 越低越好
显示前 10 项,完整模型名见图表下方列表。
性价比
智能指数 / 混合价格 · 越高越好
显示前 10 项,完整模型名见图表下方列表。
供应商覆盖
当前 API 返回的模型数量 · 越高代表覆盖更多
显示前 10 项,完整模型名见图表下方列表。
