
别被算力峰值骗了!圈内东说念主都怕的可靠性怀念来了
行业里有个心照不宣的高明:大领域集群的算力,表面峰值和内容有用愚弄率之间,隔着一王人浩瀚的领域。
Meta Llama 3预阅览经过中出现了419次故障,这个数字在圈内激发过不小的赞成。更扎心的是,236B MoE模子、6000卡阅览功课,24小时实测有用阅览时辰占比惟有82.12%。这意味着,快要18%的时辰,集群不是在算模子,而是在处理故障、恭候复原。万亿参数、万卡领域的场景,情况只会更差。
这不是某家厂商的个例,而是悉数这个词行业的可靠性怀念。
望望故障根因分析就知说念问题有多复杂:故障GPE、GPE CPU DRAM内存、软件Bug、采集交换机/线缆、主机主板……每一类组件都在孝顺着不可冷落的中断比例。集群领域越大,组件数目呈指数级增长,故障概率也随之飙升。在大领域集群中,故障简直成为势必,这不是悲不雅推敲,而是粗暴本质。
最近,晨曦发布的ScaleX40超节点新品引起业内暄和。超节点主意并不簇新,但真的敢大领域部署的用户并未几,中枢原因在于可靠性。晨曦scaleX40摄取无线缆正交背板规画,故障率裁汰30%-50%,系统可用性进步至99.99%,运维时辰降至数小时,措置了超节点落地的临了一公里问题。
晨曦此次把可靠性问题摆上台面,本人即是一种行业自愿。ScaleX40能弗成真的缓解“靠性怀念,需要实测数据来考据,但至少开云体育(中国)官方网站,标的是对的。
