模型测评：Artificial Analysis 指标

公开 LLM 指标聚合展示，包含智能、代码、数学、速度、价格、延迟和性价比等维度。

智能

Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)、Anthropic Claude Opus 5 (Adaptive Reasoning, Xhigh Effort)、Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) 在 Artificial Analysis Intelligence Index 中排名靠前。

输出速度

Inception Mercury 2、Meta Llama 3.1 Instruct 8B、IBM Granite 4.0 H Small 的输出速度更高，适合强调响应速度的场景。

代码

OpenAI GPT-5.6 Sol (xhigh)、Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)、OpenAI GPT-5.6 Sol (max) 在代码能力指数中排名靠前。

数学

OpenAI GPT-5.2 (xhigh)、OpenAI GPT-5 Codex (high)、Google Gemini 3 Flash Preview (Reasoning) 在数学能力指数中排名靠前。

智能

Artificial Analysis Intelligence Index · 越高越好

Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)

Top 60.7平均 58.1210 项

代码

Artificial Analysis Coding Index · 越高越好

OpenAI GPT-5.6 Sol (xhigh)

Top 78.3平均 77.0110 项

数学

Artificial Analysis Math Index · 越高越好

OpenAI GPT-5.2 (xhigh)

Top 99平均 96.5510 项

速度

输出 tokens/s · 越高越好

Inception Mercury 2

Top 1074.7平均 478.5310 项

各维度 Top 3 差距

每个维度以第 1 名为 100，对比第 2、3 名与头名的接近程度。

智能

#1Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)60.7

#2Anthropic Claude Opus 5 (Adaptive Reasoning, Xhigh Effort)60.1

#3Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)59.9

代码

#1OpenAI GPT-5.6 Sol (xhigh)78.3

#2Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)78

#3OpenAI GPT-5.6 Sol (max)77.4

数学

#1OpenAI GPT-5.2 (xhigh)99

#2OpenAI GPT-5 Codex (high)98.7

#3Google Gemini 3 Flash Preview (Reasoning)97

速度

#1Inception Mercury 21074.7

#2Meta Llama 3.1 Instruct 8B614.7

#3IBM Granite 4.0 H Small473.3

混合价格

#1Google Gemma 4 E4B (Reasoning)0.04

#2Google Gemma 4 E4B (Non-reasoning)0.04

#3Sarvam 30B (high)0.047

输入价格

#1Google Gemma 4 E4B (Reasoning)0.02

#2Google Gemma 4 E4B (Non-reasoning)0.02

#3Sarvam 30B (high)0.026

输出价格

#1Meta Llama 3.1 Instruct 8B0.09

#2Google Gemma 4 E4B (Reasoning)0.1

#3Google Gemma 4 E4B (Non-reasoning)0.1

首响延迟

#1Cohere Command A+0.17

#2Meta Llama 3.1 Instruct 8B0.22

#3Google Gemma 4 E4B (Non-reasoning)0.29

性价比

#1Alibaba Qwen3.5 4B (Reasoning)335

#2Tencent Hy3-preview (Reasoning)314

#3Google Gemma 4 E4B (Reasoning)297.5

供应商覆盖

#1OpenAI86

#2Alibaba81

#3Google59

智能 Top 5

直接对比头部 5 个模型的实际分数，比占比图更适合看排名差距。

#1Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)60.7

#2Anthropic Claude Opus 5 (Adaptive Reasoning, Xhigh Effort)60.1

#3Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)59.9

#4OpenAI GPT-5.6 Sol (max)58.9

#5Anthropic Claude Opus 5 (Adaptive Reasoning, High Effort)58.9

智能

Artificial Analysis Intelligence Index · 越高越好

#1Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)60.7

#2Anthropic Claude Opus 5 (Adaptive Reasoning, Xhigh Effort)60.1

#3Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)59.9

#4OpenAI GPT-5.6 Sol (max)58.9

#5Anthropic Claude Opus 5 (Adaptive Reasoning, High Effort)58.9

#6OpenAI GPT-5.6 Sol (xhigh)57.7

#7Kimi K357.1

#8Anthropic Claude Opus 5 (Adaptive Reasoning, Medium Effort)56.3

#9OpenAI GPT-5.6 Sol (high)55.9

#10Anthropic Claude Opus 4.8 (Adaptive Reasoning, Max Effort)55.7

显示前 10 项，完整模型名见图表下方列表。

代码

Artificial Analysis Coding Index · 越高越好

#1OpenAI GPT-5.6 Sol (xhigh)78.3

#2Anthropic Claude Opus 5 (Adaptive Reasoning, Max Effort)78

#3OpenAI GPT-5.6 Sol (max)77.4

#4OpenAI GPT-5.6 Sol (high)77.2

#5Anthropic Claude Opus 5 (Adaptive Reasoning, Xhigh Effort)77

#6OpenAI GPT-5.6 Terra (max)76.7

#7Anthropic Claude Opus 5 (Adaptive Reasoning, High Effort)76.5

#8Anthropic Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)76.5

#9OpenAI GPT-5.6 Sol (medium)76.3

#10Kimi K376.2

显示前 10 项，完整模型名见图表下方列表。

数学

Artificial Analysis Math Index · 越高越好

#1OpenAI GPT-5.2 (xhigh)99

#2OpenAI GPT-5 Codex (high)98.7

#3Google Gemini 3 Flash Preview (Reasoning)97

#4OpenAI GPT-5.2 (medium)96.7

#5DeepSeek V3.2 Speciale96.7

#6Xiaomi MiMo-V2-Flash (Reasoning)96.3

#7OpenAI GPT-5.1 Codex (high)95.7

#8Google Gemini 3 Pro Preview (high)95.7

#9Z AI GLM-4.7 (Reasoning)95

#10KwaiKAT KAT-Coder-Pro V194.7

显示前 10 项，完整模型名见图表下方列表。

速度

输出 tokens/s · 越高越好

#1Inception Mercury 21074.7

#2Meta Llama 3.1 Instruct 8B614.7

#3IBM Granite 4.0 H Small473.3

#4StepFun Step 3.7 Flash419.3

#5Liquid AI LFM2.5-VL-1.6B418.6

#6Google Gemini 3.5 Flash-Lite404.2

#7Multiverse Computing HyperNova 60B 2605379.6

#8Liquid AI LFM2.5-8B-A1B346.3

#9Google Gemini 3.1 Flash-Lite334.2

#10NVIDIA Nemotron 3 Nano Omni 30B A3B Reasoning320.4

显示前 10 项，完整模型名见图表下方列表。

混合价格

每 100 万 tokens 混合价格 · 越低越好

#1Google Gemma 4 E4B (Reasoning)0.04

#2Google Gemma 4 E4B (Non-reasoning)0.04

#3Sarvam 30B (high)0.047

#4Alibaba Qwen3.5 4B (Non-reasoning)0.06

#5Alibaba Qwen3.5 4B (Reasoning)0.06

#6Amazon Nova Micro0.061

#7IBM Granite 4.1 8B0.063

#8Multiverse Computing HyperNova 60B 26050.065

#9NVIDIA Nemotron Nano 9B V2 (Reasoning)0.07

#10Meta Llama 3 Instruct 8B0.07

显示前 10 项，完整模型名见图表下方列表。

输入价格

每 100 万输入 tokens · 越低越好

#1Google Gemma 4 E4B (Reasoning)0.02

#2Google Gemma 4 E4B (Non-reasoning)0.02

#3Sarvam 30B (high)0.026

#4Alibaba Qwen3.5 4B (Non-reasoning)0.03

#5Alibaba Qwen3.5 4B (Reasoning)0.03

#6IBM Granite 3.3 8B (Non-reasoning)0.03

#7Amazon Nova Micro0.035

#8NVIDIA Nemotron Nano 9B V2 (Reasoning)0.04

#9Multiverse Computing HyperNova 60B 26050.04

#10Sarvam 105B (high)0.042

显示前 10 项，完整模型名见图表下方列表。

输出价格

每 100 万输出 tokens · 越低越好

#1Meta Llama 3.1 Instruct 8B0.09

#2Google Gemma 4 E4B (Reasoning)0.1

#3Google Gemma 4 E4B (Non-reasoning)0.1

#4Mistral Ministral 3 3B0.1

#5IBM Granite 4.1 8B0.1

#6Sarvam 30B (high)0.11

#7Google Gemma 3n E4B Instruct0.12

#8Amazon Nova Micro0.14

#9Multiverse Computing HyperNova 60B 26050.14

#10Meta Llama 3 Instruct 8B0.145

显示前 10 项，完整模型名见图表下方列表。

首响延迟

Median time to first token · 越低越好

#1Cohere Command A+0.17

#2Meta Llama 3.1 Instruct 8B0.22

#3Google Gemma 4 E4B (Non-reasoning)0.29

#4Cohere North Mini Code0.31

#5Cohere Tiny Aya Global0.32

#6Google Gemma 4 E4B (Reasoning)0.33

#7Microsoft Phi-4 Mini Instruct0.33

#8Microsoft Phi-4 Multimodal Instruct0.35

#9NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning)0.36

#10Alibaba Qwen3.5 4B (Non-reasoning)0.39

显示前 10 项，完整模型名见图表下方列表。

性价比

智能指数 / 混合价格 · 越高越好

#1Alibaba Qwen3.5 4B (Reasoning)335

#2Tencent Hy3-preview (Reasoning)314

#3Google Gemma 4 E4B (Reasoning)297.5

#4Multiverse Computing HyperNova 60B 2605273.8

#5Alibaba Qwen3.5 4B (Non-reasoning)266.7

#6Tencent Hy3-preview (Non-reasoning)243.9

#7DeepSeek V4 Flash (Reasoning, Max Effort)230.3

#8Google Gemma 4 E4B (Non-reasoning)222.5

#9DeepSeek V4 Flash (Reasoning, High Effort)214.3

#10Xiaomi MiMo-V2.5212.6

显示前 10 项，完整模型名见图表下方列表。

供应商覆盖

当前 API 返回的模型数量 · 越高代表覆盖更多

#1OpenAI86

#2Alibaba81

#3Google59

#4Anthropic43

#5Mistral32

#6DeepSeek31

#7SpaceXAI22

#8Z AI20

#9Meta18

#10NVIDIA18

显示前 10 项，完整模型名见图表下方列表。