DeepSeek 开源周首日:发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

63
2025-02-26

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。



FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。


该项目已经过生产环境验证,展现出优异的稳定性。开发团队表示,FlashMLA的设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验,并在此基础上实现了创新突破。


开发者可通过简单的安装命令快速部署FlashMLA:只需执行"python setup.py install"即可完成安装,随后可运行测试脚本"python tests/test_flash_mla.py"体验其性能。

77351
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
年卡|26考研英语课程转让
考研课
¥600
年卡|优路教育注册监理工程师线上课程
注册监理工程师
¥1800
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
73
AI资讯

DeepSeek 开源周首日:发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

收录于合集

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。



FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。


该项目已经过生产环境验证,展现出优异的稳定性。开发团队表示,FlashMLA的设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验,并在此基础上实现了创新突破。


开发者可通过简单的安装命令快速部署FlashMLA:只需执行"python setup.py install"即可完成安装,随后可运行测试脚本"python tests/test_flash_mla.py"体验其性能。

77351
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
年卡|26考研英语课程转让
考研课
¥600
年卡|优路教育注册监理工程师线上课程
注册监理工程师
¥1800
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890