到底什么样的网络，才能带得动AIGC？( 二 ) _AIGC

这种方案有两个重要的搭配技术，分别是PFC（Priority Flow Control，基于优先级的流量控制）和ECN（Explicit Congestion Notification，显式拥塞通知）。它们是为了避免链路中的拥塞而产生的技术，但是，频繁被触发，反而会导致发送端暂停发送，或降速发送，进而拉低通信带宽。（下文还会提到它们）

框式交换机

国外有部分互联网公司，寄希望于利用采用框式交换机（DNX芯片+VOQ技术），来满足构建高性能网络的需求。

DNX：broadcom（博通）的一个芯片系列
VOQ：Virtual Output Queue，虚拟输出队列

这种方案看似可行，但也面临以下几个挑战。

首先，框式交换机的扩展能力一般。机框大小限制了最大端口数，如想做更大规模的集群，需要横向扩展多个机框。

其次，框式交换机的设备功耗大。机框内线卡芯片、Fabric芯片、风扇等数量众多，单设备的功耗超过2万瓦，有的甚至3万多瓦，对机柜供电能力要求太高。

第三，框式交换机的单设备端口数量多，故障域大。

基于以上原因，框式交换机设备只适合小规模部署AI计算集群。

█ 到底什么是DDC
前面说的都是传统方案。既然这些传统方案不行，那当然就要想新办法。

于是，一种名叫DDC的全新解决方案，闪亮登场了。

DDC，全名叫做Distributed Disaggregated Chassis（分布式分散式机箱）。

它是前面框式交换机的“分拆版” 。框式交换机的扩展能力不足，那么，我们干脆把它给拆开，将一个设备变成多个设备，不就OK了？

文章插图

框式设备，一般分为交换网板（背板）和业务线卡（板卡）两部分，相互之间用连接器连接。

DDC方案，将交换网板变成了NCF设备，将业务线卡变成了NCP设备。连接器，则变成了光纤。框式设备的管理功能，在DDC架构中，也变成了NCC 。

NCF：Network Cloud Fabric（网络云管理控制平面）
NCP：Network Cloud Packet Processing（网络云数据包处理）
NCC：Network Cloud Controller（网络云控制器）

DDC从集中式变成分布式之后，扩展能力大大增强了。它可以根据AI集群的大小，灵活设计组网规模。

我们来举两个例子（单POD组网和多POD组网）。

单POD组网中，采用96台NCP作为接入，其中NCP下行共18个400G接口，负责连接AI计算集群的网卡。上行共40个200G接口，最大可以连接40台NCF，NCF提供96个200G接口，该规模上下行带宽为超速比1.1:1 。整个POD可支撑1728个400G网络接口，按照一台服务器配8块GPU来计算，可支撑216台AI计算服务器。

文章插图
单POD组网

多级POD组网，规模可以变得更大。

在多级POD组网中，NCF设备要牺牲一半的SerDes，用于连接第二级的NCF 。所以，此时单POD采用48台NCP作为接入，下行共18个400G接口。

文章插图
多POD组网

单个POD内，可以支撑864个400G接口（48×18）。通过横向增加POD（8个），实现规模扩容，整体最大可支撑6912个400G网络端口（864×8）。

NCP上行40个200G，接POD内40台NCF 。POD内NCF采用48个200G接口，48个200G接口分为12个一组上行到第二级的NCF 。第二级NCF采用40个平面（Plane），每个平面4台NCF-P，分别对应在POD内的40台NCF 。

整个网络的POD内实现了1.1:1的超速比（北向带宽大于南向带宽），而在POD和二级NCF之间实现了1:1的收敛比（南向带宽/北向带宽）。