挂件
Ta好神秘,什么都没有留下。
注册12周年签到1天
IP属地:浙江

芝麻信用评估

芝麻信用评分是合法独立的信用评估及信用管理机构,授权后得到分数越高,代表信用越好

就是为了让主板等周边厂商繁荣起来,有钱大家一起赚

08-14 19:05

大家都有误区,其实大模型跑的快慢和 cpu 关系并不是太大。一般就是卡在内存带宽上。

哪怕是 n5105 这种机器 cpu 推理时占用都不会满。一般单通道 ddr5 用 1.5B 小模型每秒钟可以出 5 个词。使用 gpu 也是,都是卡在显存带宽上,一般看快慢就是看显存带宽。3090 和 4090 显存带宽差不多,所以吐词的速度差不多。

大模型一般来讲至少要到 30B 以上才有应用价值,一般模型用 4bit 量化以上就可以了。30B 的 4bit 量化大概就是 30x0.65=19G 上下,需要有 20 多的内存装进去。这个也基本上是 cpu 的极限了。快的 4 通道内存大概估计也会有个 10 个词每秒上下吧。

开源的不差的,但是至少要到 70B 以上的模型,qwen2 72B,llama 3.1 70B 对普通来讲就够用了。llama 3.1 405B 和 chatgpt4 感觉差不多,前者可能还稍好一点。这个可能就是要买贵点的显卡组一下了。同样的也是受限于显存带宽,慢的要命。

08-11 15:26

qlc 理论上肯定够了,2TB 在一个周期内怎么可能用的完。

07-25 23:45

今天看了推送,我居然还以为自己大脑错乱了。我反复确定了一下时间,真的是 2024 年不是 2021 年。我终于放心了

07-25 17:52

真的是太闲了…出风口温度虽然没有降低,但是形成的湍流打破了热边界层有可能会提升热交换的效率。建议先用仿真软件仿真一下看看

07-07 23:22

#小程序://京喜/0Qdf1LjDDw0nMLt

07-01 16:01

中画幅那就不是人用的机器,对焦慢的要死还会发出抽风的声音

06-24 10:44
06-23 05:16
社区达人榜 查看更多

小提示

您确定删除该评论吗?

关注数量超出限制,
请先删除部分内容再尝试