Qwen3本地测试

发布日期：2025-05-21 02:47 点击次数：82

运行环境

计算机类型：笔记本

CPU:i9-13900H

内存：64GB

硬盘：3T

GPU:RTX 4060 8GB

操作系统：Win11

大模型环境：Ollama

速度测试

模型

量化

模型大小

运行大小

速度

qwen3:0.6b

fp16

1.5 GB

2.0 GB

129.09 tokens/s

qwen3:4b

fp16

8.1 GB

9.2 GB

14.72 tokens/s

qwen3:8b

5.2 GB

6.0 GB

43.50 tokens/s

qwen3:14b

9.3 GB

10 GB

10.81 tokens/s

qwen3:30b-a3b

18 GB

20 GB

9.52 tokens/s

凡是运行大小是8GB以上的，都会使用部分内存，使用CPU/GPU混合推理。

个人评价

这次Qwen3发布的模型，给了我以下几个惊喜。

最小模型0.6B。速度超快（259.03 tokens/s），最小的qwen3:0.6b q4量化版本才522 MB。而且这个模型并非什么问题都是。对于某些问题，比如科普常识，解答比较靠谱。

qwen3:30b-a3b 模型是一个MoE模型。我笔记本这配置，强行30B的Dense模型，速度会非常非常慢。但是MoE模型，每次激活3B，速度还可以。回答的也棒。

这一系列模型，上下文长度非常长。回答的内容可以有两三千tokens。