时间:2025-07-10 13:45:43 来源:互联网作者:zq
LPDDR6内存标准正式发布冲击14.4GHz!LPDDR6来了高通首发,存储带宽比算力更重要! 7月9日,微电子行业标准制定者JEDEC固体技术协会正式发布了最新的低功耗双倍数据速率6(LPDDR6)标准,这意味着内存技术取得了长足的进步。该标准旨在显著提高各种应用场景的内存速度和效率,如移动终端和人工智能。

LPDDR6采用双子通道架构,可以在保证32字节小浏览粒度的同时实现灵活操作。这项新标准的主要特点包括:每个芯片配有两个子通道,每个子通道有12个数据信号线。(DQs),优化通道性能;每个子通道还包括4个指令/地址(CA)优化后,信号减少了焊球数量,从而提高了数据访问速度。此外,LPDDR6还引入了支持大空间内存配置,最大限度地提高存储资源利用率的静态效率模式。
三星已经确认LPDDR6将于2025年下半年量产,第一个使用LPDDR6的是高通即将于2025年10月底发布的骁龙8至尊二代,汽车领域应该也会有至尊二代座舱和Ride,鉴于汽车至尊一代刚刚开始推广,至尊二代估计要等到明年了。据说苹果也有意使用。
LPDDR6与LPDDR5最大区别一是速度,二是总线宽度。速度方面,LPDDR6起步是10.6Gbps,然后有12.8Gbps、14.4Gbps和16.0Gbps几档。目前三星的LPDDR5X就有10.667Gbps,LPDDR5T则有9.6Gbps。LPDDR6为了凸显优势,大部分厂家都会选择12.8Gbps和14.4Gbps,早期JEDEC定的标准最高是14.4Gbps,但就像LPDDR5早期定的标准最高是8.5Gbps一样,后期肯定会超过,LPDDR6至少会到16.0Gbps。
LPDDR6与LPDDR5区别之二是总线宽度,LPDDR5是16位单通道,LPDDR6是24位,由两个12-bit通道合并而成,某些苛刻应用如车载和工业领域,可以留一个通道做备份,一个通道数据丢失,另一个可以补上。不过数据系统还是32位或64位,因此LPDDR6的有效带宽计算比较复杂。
LPDDR6内存标准正式发布冲击14.4GHz!LPDDR6来了高通首发,存储带宽比算力更重要! GDDR6/7和HBM都是高位宽,高传输速率,LPDDR则频率很高。也就是说GDDR6/7和HBM只适合做显存,不适合配合CPU做RAM。LPDDR则两者兼顾,除了特斯拉的HW4使用GDDR6外,所有SoC都是使用LPDDR。特斯拉也许是对存储带宽特别在意,才用GDDR6.但此举拉低了CPU的频率,除非遇到特别大的模型,否则提升不大。
Prefill:根据输入 Tokens(Recite, the, first, law, of, robotics) 生成第一个输出 Token(A),通过一次 Forward 就可以完成,在 Forward 中,输入 Tokens 间可以并行执行(类似 Bert 这些 Encoder 模型),因此执行效率很高。
Decoding:从生成第一个 Token(A) 之后开始,采用自回归方式一次生成一个 Token,直到生成一个特殊的 Stop Token(或者满足用户的某个条件,比如超过特定长度) 才会结束,在 Decoding 阶段 Token 是逐个生成的,上述的计算过程中每次都会依赖之前的结果,换句话说这是串行计算,而非GPU擅长的并行计算,GPU大部分时候都在等待数据搬运。加速的办法是计算当前 Token 时直接从KV Cache中读取而不是重新计算。对于通用LLM,应用场景是要考虑多个并发客户使用,即Batch Size远大于1.KV Cache的缓存量会随着Batch Size暴增,但在车里用户只有一个,就是自动驾驶端到端大模型,即Batch Size为1.
因为 Decoding 阶段 Token 逐个处理,使用 KV Cache 之后,上面介绍的 Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。除此之外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但是 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,矩阵与矩阵的乘法。
矩阵乘向量操作是明显的访存bound,而以上操作是LLM 推理中最主要的部分,这也就导致LLM 推理是访存 bound 类型。简单说,Prefill阶段完全取决于算力,Decoding阶段完全取决于存储带宽。
目前顶级自动驾驶芯片如英伟达的Thor(最低端的z除外,其存储带宽还是204.8GB/s)和高通的SA8397/SA8797都是273GB/s,稍低一级的英伟达Orin和地平线的J6P是204.8GB/s,存储控制器die size面积大,也就是成本高,碍于控制成本,其余大部分自动驾驶芯片都是76.8-102.4GB/s。

LPDDR6内存标准正式发布冲击14.4GHz!LPDDR6来了高通首发,存储带宽比算力更重要! 高通改走高端路线,对英伟达发起挑战,国内厂家也需要奋起,国人能够接受国产高价车型,不妨把成本控制放一放,更强调性能。
猜你喜欢
苹果 2025 教育优惠返校季来袭!AirPods4免费送,苹果高校教育优惠来了!
本文网址:http://kchuangw.com/xinwen/5020.html
声明:本站原创/投稿文章所有权归中国科创网所有,转载务必注明来源;文章仅代表原作者观点,不代表中国科创网立场;如有侵权、违规,可直接反馈本站,我们将会作删除处理。