咨询服务环保工程市政工程机电暖通工程
当前位置:首页 > 服务内容 > 市政工程

上游不优化我自己来!五年老卡RX 6800 XT内核魔改:MoE速度暴增至1770t/s

分享到:
  来源:星空官方网站  更新时间:2026-05-14 01:24:00  【打印此页】  【关闭

5月13日消息,上游E速开发者Stormrage34近日发布llama.cpp分支TurboQuant-HIP v0.3.0版本,不优通过重写矩阵乘法内核,化自成功将AMD RX 6800 XT显卡的己年MoE大模型预填充速度从上游llama.cpp主分支下的约480 t/s提升至1770 t/s

该团队长期维护面向AMD GPU深度适配的llama.cpp专属分支,专门针对AMD硬件特性优化大语言模型推理性能。内核

上游不优化我自己来!五年老卡RX 6800 XT内核魔改:MoE速度暴增至1770t/s

上游不优化我自己来!五年老卡RX 6800 XT内核魔改:MoE速度暴增至1770t/s

上游官方版本llama.cpp此前将AMD GPU作为通用后端适配,魔改核心计算内核均针对NVIDIA架构开发,度暴随后直接移植到AMD后端,增至在RDNA2架构上存在大量带宽浪费问题,上游E速MoE场景运算完全受内存带宽限制。不优

上游不优化我自己来!五年老卡RX 6800 XT内核魔改:MoE速度暴增至1770t/s

该团队从HIP底层切入做针对性改进,化自新开发的己年基于BFE的IQ4_XS反量化内核,独立运行速度较原有方案提升13倍。内核

同时,魔改新增异步流水线调度逻辑,度暴将内核启动延迟和运算过程做重叠处理,直接降低31%的内核启动开销。

带来MoE场景约4倍性能跃升的核心,是实验性LDS双缓冲矩阵乘法内核,实现权重加载和DP4A计算并行,最大化利用硬件算力资源。

目前该核心优化功能仅开放手动标志位启用,仍存在对称瓦片尺寸下的LDS存储体冲突问题,导致延迟波动偏高暂不适合生产环境,完整修复方案已经制定完成。

用户可通过项目仓库提供的脚本直接构建测试版本,无需修改CMake配置文件,该分支完整保留上游全部原有功能。

分享到: