林渊收起笑容,直接切入正题。
“王院士,阿里的飞天系统,底层的分布式调度模块叫伏羲,对吧?”
林渊拿起桌上的白板笔,在白板上画了一个最简单的结构图,“伏羲采用的是典型的 MaSter-Slave(主从)架构。你们现在的目标,是想把 5000 台服务器连成一台超级计算机。但你们卡壳了。”
王坚脸上的笑意逐渐收敛,神色变得极其凝重。
林渊继续在白板上敲击:“卡壳的原因,是因为你们在用传统的网络思维做超算集群。当 5000 台计算节点同时向主控中心发送心跳包和资源汇报时,海量的 RPC(远程过程调用)通信瞬间就会引发广播风暴。”
为了让人听得更直观,林渊切换到了大白话:“这就好比,一个大教室里有 5000 个学生,下课铃一响,5000 个人同时冲上讲台,争着抢着把手里的作业本往这一个老师的脸上砸。”
“这老师就算长了八头六臂,也会被瞬间压死。在系统里的表现,就是主节点 CPU 瞬间跑满,网络带宽堵死,系统彻底崩溃。”
王坚死死盯着白板上的那个架构图,神情开始变得郑重,这个年轻人不简单。
当然军分技术也就在现在不简单之后通过不断的迭代更新,在林渊的那个年代属于是基操勿六,人手必备,你不会都找不到工作。
而现在林渊所说的问题,正是阿里云现在遇到的困难和瓶颈。
“那你的解决思路是什么?”王坚的语气中少了几分怀疑。
“剥离分布式路由,做极度集中的网络收敛。”
林渊给出了极其精准的技术方向,“不能让 5000 个学生直接找老师。我们要构建一个极其强悍的集中式单点 SDN 网关。把底层的复杂路由逻辑全部切断,让这 5000 台机器只认这一个中央交通枢纽。”
“所有的心跳包和并发请求,全部由这个网关进行硬件级的合并、压缩、削峰,然后再统一提交给主节点。”
王坚听完,足足沉默了半分钟。他的大脑在疯狂推演这套架构的可行性。
秒懂!
主节点的压力将被瞬间清空!5000 台机器组成的集群,将真正意义上变成一台跑得极其顺畅的超级计算机!
“你在这稍等我一会儿。”
王坚猛地站起身,丢下一句话,推开会议室的门步履匆匆地出去了。
会议室里
本章未完,请点击下一页继续阅读!