DeepSeek近日在官方社交平臺發(fā)布了一項重大決定,宣布將其核心組件3FS(Fire-Flyer 文件系統(tǒng))全面開源。這一舉措被視為DeepSeek在數(shù)據(jù)訪問領(lǐng)域的一大推力器。
3FS,即Fire-Flyer 文件系統(tǒng),是一種專為現(xiàn)代SSD和RDMA網(wǎng)絡(luò)設(shè)計的高效并行文件系統(tǒng)。它能夠充分利用這些先進硬件的全部帶寬,實現(xiàn)卓越的數(shù)據(jù)處理能力。
據(jù)DeepSeek介紹,3FS在性能表現(xiàn)上尤為亮眼。在180節(jié)點的集群環(huán)境中,其聚合讀取吞吐量高達6.6TiB/s;而在25節(jié)點的集群中,GraySort基準測試的吞吐量更是達到了驚人的3.66TiB/分鐘。每個客戶端節(jié)點的KVCache查找峰值吞吐量也超過了40GiB/s。更為先進的是,3FS采用了具有強一致性語義的分解架構(gòu),確保了數(shù)據(jù)的高可用性和一致性。
3FS在DeepSeek的V3/R1版本中發(fā)揮了關(guān)鍵作用。在訓練數(shù)據(jù)預處理、數(shù)據(jù)集加載、檢查點保存/重新加載、嵌入向量搜索以及KVCache查找等推理過程中,3FS都提供了強有力的支持。這使得DeepSeek在處理大規(guī)模數(shù)據(jù)集時能夠更加高效、穩(wěn)定。
DeepSeek此次開源3FS,無疑將推動數(shù)據(jù)訪問技術(shù)的發(fā)展和創(chuàng)新。對于廣大開發(fā)者而言,這無疑是一個難得的機遇,可以深入研究和利用3FS的先進技術(shù),進一步提升數(shù)據(jù)處理和應用性能。