2023年标记着公共对生成式AI(GenAI)贯通的开赴,而2024年则预示着公共各大企业和组织将全面挖掘东说念主工智能的买卖后劲。跟着生成式AI本领日益被用户给与,存储等底层数据架构正靠近着前所未有的挑战,用户愈发意志到存储系统必须满足AI数据考研与推理在性能、延时、容量和扩张性等方面的严格要求。 近日,在最新发布的MLPerf AI存储基准评测中,波澜信息散布式存储平台AS13000G7通过一系列翻新本领,显贵擢升数据处理效果,勇夺8项测试中5项性能最好收获,竣事集群带宽360GB/s、单
2023年标记着公共对生成式AI(GenAI)贯通的开赴,而2024年则预示着公共各大企业和组织将全面挖掘东说念主工智能的买卖后劲。跟着生成式AI本领日益被用户给与,存储等底层数据架构正靠近着前所未有的挑战,用户愈发意志到存储系统必须满足AI数据考研与推理在性能、延时、容量和扩张性等方面的严格要求。
近日,在最新发布的MLPerf AI存储基准评测中,波澜信息散布式存储平台AS13000G7通过一系列翻新本领,显贵擢升数据处理效果,勇夺8项测试中5项性能最好收获,竣事集群带宽360GB/s、单节点带宽达120GB/s,在满足AI场景下的高性能存储需求方面展现出不凡智商,为大范畴数据处理和AI应用提供坚实基础。
不仅是“容器”,如故“加快器”
在传统不雅念里,存储等数据基础步调就像一个存储数据的“容器”;参预到AI时间,在多样AI应用场景中,存储则奥妙无穷,成为鼓动AI应用和鼓动AI产业化的“加快器”。
以这次MLPerf测试为例,通过启动一个散布式AI考研测试轨范,模拟GPU计较经由,要求在GPU哄骗率高达90%或70%的要求下,以存储带宽和支撑的模拟 GPU (模拟加快器)数目为关节性能办法,来评估AI考研场景下存储的性能发达,从而考证存储对GPU算力的加快智商。
伸开剩余86%要是把计较节点比作“数据工场”,存储介质则非常于数据仓库。擢升存储性能,意味着用户未必在吞并时期内通过“存储高速”在“数据工场”和“数据仓库”之间更高效地存取“数据物料”。
举例,东说念主工智能的大模子考研数据加载、PB级搜检点断点续训(其中,搜检点连系支出平均可占考研总时期的12%,以至高达43%)和高并发推理问答等场景下,存储系统的性能径直关乎通盘考研与推理经由中GPU的灵验哄骗率。尤其是在万卡集群范畴下,非常于范畴广宽“数据工场”,“坐蓐机器”GPU一朝开动,要是莫得实时输送“数据物料”,约便是让GPU闲置。特地据高慢,存储系统1小时的支出,在千卡集群中就意味着将滥用1000卡时,形成计较资源的损成仇业务本钱剧增。
那么,要竣事“数据物料”的快速高效运送,不错从存储哪些标的早先?
其一,减少中转站--数控分离。通过软件层面的翻新,将截至面(数据工场)和数据面(介质仓库)分离,减少数据中转,镌汰传输旅途,擢升存储单节点及集群的全体性能。
其二,增多车说念数--硬件升级。硬件层面选拔新一代的高性能硬件,通过DDR5和PCIe5.0等,升级存储带宽,增多传输通说念数目,擢升存储性能的上限。
其三,物料就近存储--软硬协同。在软硬协同层面,基于数控分离架构,自主截至数据页缓存(储备仓)分拨计策,活泼调遣内核数据迁移,数据就近获得,从而竣事快速I/O。
接下来,咱们将逐个先容这三大性能擢升技能背后的竣事旨趣过甚主要价值。
软件优化
数控分离,凭空80%节点间数据转发量
在传统散布式文献系统中,数据和元数据高度耦合,导致数据读写信息的分发、传输和元数据处理都需要经过主存储节点。在AI应用场景下,跟着客户端数目激增和带宽需求扩大,CPU、内存、硬盘和相聚I/O的处明智商靠近严峻进修。尽管数控一体的散布式文献系统在领略性方面发达优异,但在面对AI考研等大I/O、高带宽需求时,其性能瓶颈迟缓走漏。数据需通过主节点在集群里面进行转发,这不仅占用了大都的CPU、内存、带宽和相聚资源,还导致了数据传输的延伸。
为管制该问题,业界曾尝试通过RDMA本领来擢升存储带宽。RDMA允许外部成立绕过CPU和操作系统径直造访内存,从而凭空了数据传输延伸并放松了CPU负载,进而擢升了相聚通讯效果。关联词,这种形态并未从压根上管制数据中转带来的延伸问题。
基于此布景,波澜信息翻新自研散布式软件栈,选拔全新数控分离架构,将文献系统的数据面和截至面皆备解耦。截至面主要肃穆管制数据的属性信息,如位置、大小等,通过优化逻辑截至和数据管制算法来提高存储系统的造访效果和数据一致性。而数据面则径直肃穆数据的读写操作,排斥中间轨范的数据处理延伸,从而镌汰“数据物料”的存取时期。
这种数控分离的形态显贵减少数据流在节点间的转发次数,凭空80%的东西向(节点间)数据转发量,充分剖析硬盘带宽,绝顶是全闪存储性能。以波澜信息散布式存储平台AS13000G7为例,在雷同建立下,比拟于单一TCP和单一RDMA有筹办,数控分离架构未必带来60%读带宽擢升和110%写带宽擢升。
硬件升级
拓宽传输通路,竣事有储性能翻倍
在AI应用场景下,“数据物料”的快速运送依赖于高效的“存储高速”通说念。跟着CPU、内存、硬盘等硬件本领的不停翻新,升级“存储高速”通说念的硬件成为擢升存储性能的迫切道路。
波澜信息散布式存储平台AS13000G7选拔业界最新高端处理器芯片,如Intel第五代至强可拓展处理器,单颗最大支撑60核,支撑Intel 最新2.0版块睿频加快本领、超线程本领以及高档矢量拓展教导集512(AVX-512)。同期,支撑DDR5内存,如三星、海力士的32G、64G高性能、大容量内存,单根内存在1DPC1情况下,不错支撑5600MHz频率,比拟与DDR4的3200MHz的内存,性能擢升75%。
基于最新处理器的硬件平台,AS13000G7如故支撑PCIe5.0轨范,并在此基础上支撑NVDIA最新的CX7系列400G IB卡及波澜信息自研PCIe5.0 NVMe。相较于上一代AS13000G6的PCIe4.0的I/O带宽,竣事带宽擢升100%。
在联想上,G7一代硬件平台将硬件模块化联想理念最大化,将处理器的I/O一皆扇出,选拔线缆、转接卡等轨范联想,竣事建立的活泼性。最大可支撑4张PCIe5.0 X16的FHHL卡,通盘后端的SSD成立均通过直连竣事,取消了AS13000G6 的PCIe Switch联想,从而排斥了数据链路上的瓶颈点。前端IO的性能及后端IO的表面性能均擢升了4倍。
为测试性能发达,波澜信息将两种软件栈分别部署在两代硬件上并进行读写测试。收尾高慢,与上一代硬件平台比拟,在不同软件栈上AS13000G7的性能可擢升170%-220%,灵验保险了AI应用场景下的存储性能。
软硬协同
内核亲和力调遣,内存造访效果擢升4倍
在刻下的AI基础步调平台中,计较做事器建立相称高,更高性能的CPU和更多的插槽数带来了NUMA(Non-Uniform Memory Access)节点数据的增多。在NUMA架构中,系统内存被分辩为多个区域,每个区域属于一块特定的NUMA节点,每个节点都有我方的腹地内存。因此,每个处理器造访腹地内存的速率远快于造访其他节点内存的速率。
关联词,在多核处理器环境下,会产生大都的跨NUMA远端造访。在散布式存储系统中,由于IO央求会经过用户态、内核态和远端存储集群,中间经常的险峻文切换会带来内存造访延伸。如下图,在未经过NUMA平衡的存储系统中,存储的缓存空间集会在单个NUMA节点内存内。当IO央求量增大时,通盘其他NUMA节点的CPU核的数据造访均集会在单个Socket内,形成了大都跨Socket 、跨NUMA造访。这不仅导致了CPU核的超负荷运送和大都闲置,还使得不同Socket上的内存带宽严重不平衡,单次远端NUMA节点造访形成的眇小时延聚积将进一步增大全体时延,导致存储系统团员带宽严重着落。
为了凭空跨NUMA造访带来的时延,波澜信息通过内核亲和力调遣本领,在全新数控分离架构下,使内核客户端可自主截至数据页缓存分拨计策并主动禁受用户下发的IO任务。这种形态未必愈加活泼地竣事万般客户端内核态到远端存储池的数据迁移计策。其中,针对不同的IO线程进行NUMA感知优化,将业务读线程与数据自动分拨到雷同的NUMA节点上,这么,所特地据均在腹地NUMA内存掷中,灵验减少了高并发下NUMA节点间数据传输,凭空了IO链路时延,4倍擢升内存造访效果,保证负载平衡。
总而言之,步入AI时间九游体育app(中国)官方网站,存储性能已成为掂量东说念主工智能考研、推理及应用效果的关节身分。波澜信息散布式存储平台AS13000G7凭借其软件层面的优化、硬件步调的升级以及软硬件的良好协同,展现了不凡的性能,无疑是AI时间用户的理思存储管制有筹办。
发布于:湖北省