这种方案有两个重要的搭配技术,分别是PFC(Priority Flow Control,基于优先级的流量控制)和ECN(Explicit Congestion Notification,显式拥塞通知) 。它们是为了避免链路中的拥塞而产生的技术,但是,频繁被触发,反而会导致发送端暂停发送,或降速发送,进而拉低通信带宽 。(下文还会提到它们)
- 框式交换机
国外有部分互联网公司,寄希望于利用采用框式交换机(DNX芯片+VOQ技术),来满足构建高性能网络的需求 。
DNX:broadcom(博通)的一个芯片系列
VOQ:Virtual Output Queue,虚拟输出队列
这种方案看似可行,但也面临以下几个挑战 。
首先,框式交换机的扩展能力一般 。机框大小限制了最大端口数,如想做更大规模的集群,需要横向扩展多个机框 。
其次,框式交换机的设备功耗大 。机框内线卡芯片、Fabric芯片、风扇等数量众多,单设备的功耗超过2万瓦,有的甚至3万多瓦,对机柜供电能力要求太高 。
第三,框式交换机的单设备端口数量多,故障域大 。
基于以上原因,框式交换机设备只适合小规模部署AI计算集群 。
█ 到底什么是DDC
前面说的都是传统方案 。既然这些传统方案不行,那当然就要想新办法 。
于是,一种名叫DDC的全新解决方案,闪亮登场了 。
DDC,全名叫做Distributed Disaggregated Chassis(分布式分散式机箱) 。
它是前面框式交换机的“分拆版” 。框式交换机的扩展能力不足,那么,我们干脆把它给拆开,将一个设备变成多个设备,不就OK了?

文章插图
框式设备,一般分为交换网板(背板)和业务线卡(板卡)两部分,相互之间用连接器连接 。
DDC方案,将交换网板变成了NCF设备,将业务线卡变成了NCP设备 。连接器,则变成了光纤 。框式设备的管理功能,在DDC架构中,也变成了NCC 。
NCF:Network Cloud Fabric(网络云管理控制平面)
NCP:Network Cloud Packet Processing(网络云数据包处理)
NCC:Network Cloud Controller(网络云控制器)
DDC从集中式变成分布式之后,扩展能力大大增强了 。它可以根据AI集群的大小,灵活设计组网规模 。
我们来举两个例子(单POD组网和多POD组网) 。
单POD组网中,采用96台NCP作为接入,其中NCP下行共18个400G接口,负责连接AI计算集群的网卡 。上行共40个200G接口,最大可以连接40台NCF,NCF提供96个200G接口,该规模上下行带宽为超速比1.1:1 。整个POD可支撑1728个400G网络接口,按照一台服务器配8块GPU来计算,可支撑216台AI计算服务器 。

文章插图
单POD组网
多级POD组网,规模可以变得更大 。
在多级POD组网中,NCF设备要牺牲一半的SerDes,用于连接第二级的NCF 。所以,此时单POD采用48台NCP作为接入,下行共18个400G接口 。

文章插图
多POD组网
单个POD内,可以支撑864个400G接口(48×18) 。通过横向增加POD(8个),实现规模扩容,整体最大可支撑6912个400G网络端口(864×8) 。
NCP上行40个200G,接POD内40台NCF 。POD内NCF采用48个200G接口,48个200G接口分为12个一组上行到第二级的NCF 。第二级NCF采用40个平面(Plane),每个平面4台NCF-P,分别对应在POD内的40台NCF 。
整个网络的POD内实现了1.1:1的超速比(北向带宽大于南向带宽),而在POD和二级NCF之间实现了1:1的收敛比(南向带宽/北向带宽) 。

文章插图
█ DDC的技术特点
站在规模和带宽吞吐的角度,DDC已经可以满足AI大模型训练对于网络的需求 。
然而,网络的运作过程是复杂的,DDC还需要在时延对抗、负载均衡性、管理效率等方面有所提升 。
