近日,摩尔线程宣布成功推出大语言模型高速推理框架vLLM的MUSA版本,并对外开放源代码。此举旨在为开发者树立一个典范,展示如何将开源项目MUSA移植至摩尔线程功能完备的GPU平台上。
摩尔线程正致力于以其自主研发的统一系统架构GPU和MUSA软件平台为核心,构建一个既完善又好用的MUSA应用生态系统。
vLLM作为一个高效且用户友好的大模型推理与服务框架,凭借其PagedAttention内存管理创新技术、连续批处理请求能力、对CUDA/HIP图的快速模型执行支持、CUDA核心优化以及分布式推理等特性,显著提升了大语言模型(LLM)的推理性能,并在业界得到了广泛应用,成为备受推崇的开源大模型推理框架。
摩尔线程基于vLLM v0.4.2版本进行了精心移植与适配,使其能够完美支持摩尔线程GPU后端Device,并已全面开放源代码。这意味着开发者可以在此基础上进行二次开发,或轻松将vLLM升级至社区的最新版本。
特别值得一提的是,摩尔线程MUSA架构的先进性以及软件栈对CUDA的高度兼容性,使得用户能够通过MUSIFY代码自动转换工具,轻松将原有的CUDA代码迁移至MUSA平台,实现无缝替代。同时,CUDA相关库的调用也可迅速替换为MUSA加速库,如muDNN算子库、MCCL集合通信库以及muBLAS线性代数库等。
摩尔线程通过MUSA软件栈对CUDA软件栈接口的全面兼容,极大地提高了应用移植的效率,缩短了开发周期。此外,公司还提供了一系列实用工具和脚本,如MUSIFY自动代码移植工具,以助力开发者更高效地完成代码迁移与优化工作。