DeepSeek近期在其官方社交媒體賬號(hào)上發(fā)布了一項(xiàng)重大開源舉措——3FS文件系統(tǒng)的問世,該系統(tǒng)被視為驅(qū)動(dòng)DeepSeek所有數(shù)據(jù)訪問的核心動(dòng)力。
3FS,全稱為Fire-Flyer文件系統(tǒng),是一款專為現(xiàn)代SSD和RDMA網(wǎng)絡(luò)環(huán)境設(shè)計(jì)的并行文件系統(tǒng)。它充分利用了這些高端硬件的全部帶寬,為用戶帶來了前所未有的性能體驗(yàn)。
據(jù)DeepSeek介紹,3FS在性能上表現(xiàn)卓越。在180節(jié)點(diǎn)的集群環(huán)境中,其聚合讀取吞吐量高達(dá)6.6TiB/s;而在25節(jié)點(diǎn)的集群中,GraySort基準(zhǔn)測試的吞吐量更是達(dá)到了驚人的3.66TiB/分鐘。每個(gè)客戶端節(jié)點(diǎn)的KVCache查找峰值吞吐量也超過了40GiB/s。更為3FS采用了具有強(qiáng)一致性語義的分解架構(gòu),確保了數(shù)據(jù)的一致性和可靠性。
在V3/R1的應(yīng)用場景中,3FS展現(xiàn)了其強(qiáng)大的實(shí)用價(jià)值。無論是訓(xùn)練數(shù)據(jù)的預(yù)處理、數(shù)據(jù)集的加載,還是檢查點(diǎn)的保存與重新加載,3FS都能提供高效的支持。同時(shí),在嵌入向量搜索和KVCache查找等推理任務(wù)中,3FS也展現(xiàn)出了出色的性能。
DeepSeek的這一開源舉措,無疑將為大數(shù)據(jù)處理和人工智能領(lǐng)域帶來新的突破。3FS的高效性能和穩(wěn)定架構(gòu),將為數(shù)據(jù)科學(xué)家和工程師們提供更加便捷、高效的數(shù)據(jù)訪問和處理工具,推動(dòng)相關(guān)領(lǐng)域的快速發(fā)展。