大家都有误区,其实大模型跑的快慢和 cpu 关系并不是太大。一般就是卡在内存带宽上。
哪怕是 n5105 这种机器 cpu 推理时占用都不会满。一般单通道 ddr5 用 1.5B 小模型每秒钟可以出 5 个词。使用 gpu 也是,都是卡在显存带宽上,一般看快慢就是看显存带宽。3090 和 4090 显存带宽差不多,所以吐词的速度差不多。
大模型一般来讲至少要到 30B 以上才有应用价值,一般模型用 4bit 量化以上就可以了。30B 的 4bit 量化大概就是 30x0.65=19G 上下,需要有 20 多的内存装进去。这个也基本上是 cpu 的极限了。快的 4 通道内存大概估计也会有个 10 个词每秒上下吧。
开源的不差的,但是至少要到 70B 以上的模型,qwen2 72B,llama 3.1 70B 对普通来讲就够用了。llama 3.1 405B 和 chatgpt4 感觉差不多,前者可能还稍好一点。这个可能就是要买贵点的显卡组一下了。同样的也是受限于显存带宽,慢的要命。
真的是太闲了…出风口温度虽然没有降低,但是形成的湍流打破了热边界层有可能会提升热交换的效率。建议先用仿真软件仿真一下看看
关注数量超出限制,
请先删除部分内容再尝试