AMD近日在AI及高性能計(jì)算領(lǐng)域邁出重要一步,發(fā)布了ROCm 6.3版本更新。此次更新不僅集成了專為AI推理加速設(shè)計(jì)的SGLang運(yùn)行時(shí),還對FlashAttention-2進(jìn)行了全面優(yōu)化,旨在提升AI訓(xùn)練和推理的效率。
SGLang的加入,標(biāo)志著AMD在優(yōu)化大型語言模型(LLMs)和視覺語言模型(VLMs)推理方面取得了新進(jìn)展。AMD承諾,通過集成SGLang,能夠在AMD Instinct GPU上實(shí)現(xiàn)高達(dá)6倍的吞吐量提升。SGLang還支持Python,并配備了預(yù)配置的ROCm Docker容器,為用戶提供了更為便捷的使用體驗(yàn)。
在FlashAttention-2方面,AMD進(jìn)行了全面革新。相較于FlashAttention-1,新版本在前向和后向傳遞方面取得了顯著改進(jìn),從而大幅提升了Transformer模型的訓(xùn)練和推理速度。這一改進(jìn)對于依賴Transformer架構(gòu)的AI應(yīng)用而言,無疑是一個(gè)重大利好。
除了上述更新外,AMD還推出了全新的Fortran編譯器。這款編譯器支持直接GPU卸載,與舊版本兼容,并完美集成了HIP內(nèi)核和ROCm庫。這為Fortran開發(fā)者提供了更為強(qiáng)大的GPU計(jì)算能力,使他們能夠更高效地利用AMD GPU進(jìn)行高性能計(jì)算。
在圖像和視頻處理方面,ROCm 6.3也帶來了諸多增強(qiáng)。rocDecode、rocJPEG和rocAL等計(jì)算機(jī)視覺庫得到了全面升級,分別支持AV1編解碼、GPU加速JPEG解碼以及更優(yōu)的音頻增強(qiáng)功能。這些改進(jìn)為圖像和視頻處理應(yīng)用提供了更為強(qiáng)大的支持,使得AMD GPU在多媒體處理領(lǐng)域也展現(xiàn)出了出色的性能。
ROCm(Radeon Open Compute)是AMD開發(fā)的一個(gè)開源軟件棧,旨在支持在AMD GPU上進(jìn)行編程。它包含了驅(qū)動程序、開發(fā)工具和API,支持從底層內(nèi)核到最終用戶應(yīng)用程序的GPU編程。ROCm針對生成式AI和高性能計(jì)算(HPC)應(yīng)用進(jìn)行了優(yōu)化,并涵蓋了通用計(jì)算(GPGPU)、高性能計(jì)算(HPC)和異構(gòu)計(jì)算等多個(gè)領(lǐng)域。
此次ROCm 6.3的發(fā)布,不僅展示了AMD在AI和高性能計(jì)算領(lǐng)域的持續(xù)投入和創(chuàng)新,也為廣大開發(fā)者提供了更為強(qiáng)大和便捷的編程工具。相信隨著ROCm的不斷完善和發(fā)展,AMD GPU將在更多領(lǐng)域展現(xiàn)出其卓越的性能和潛力。