此芯p1开发板使用OpenHarmony时llama.cpp不同优化速度对比(GPU vs CPU)

硬件环境

image.png

使用vulkan后端的llama.cpp (GPU)

image.png

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf -ngl 100
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon RX 580 2048SP (RADV POLARIS10) (radv) | uma: 0 | fp16: 0 | bf16: 0 | warp size: 64 | shared memory                                : 65536 | int dot: 0 | matrix cores: none
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           pp512 |       2425.55 ± 2.33 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           tg128 |        136.98 ± 7.70 |

build: unknown (0)

此时可以观察到 rx580的状态,接近满载。理论上插一张rx7900 xtx 24G也可以的,可惜笔者囊中羞涩。

snapshot_19700101_082211.jpeg

纯cpu跑

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf
| model                          |       size |     params | backend    | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           pp512 |        138.70 ± 0.36 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           tg128 |          8.41 ± 0.22 |

build: unknown (0)

结论

GPU 优势显著​:Vulkan 后端在端侧推理中实现 ​16–17 倍加速,尤其适合高吞吐任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

离北况归

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值