大二层技术对比分析-大二层技术对比分析图

如前文所述，传统的数据中心汇聚交换机作为网关，为了提高HA性能，基本都采用双机冗余建设模式。随着数据中心进入虚拟化时代，接入服务器的规模飞速增加，虚拟服务器的规模出现级数增加。同时，更多的客户要求在同一个二层网络内，任意两台虚拟服务器之间要做无阻塞的快速交换。这就导致作为网关的汇聚交换机出现容量不足而降低整网性能，因此需要采用新得技术有效的增加汇聚交换机的容量，同时还必须采用有效的技术提高接入到汇聚交换机之间的带宽利用率。前面几篇文章介绍了各种可用于的数据中心二层网络扩展的技术，本文将就这几类技术做一下对比。

1 传统STP技术应用分析

STP是IEEE 802.1D中定义的一个应用于以太网交换机的标准，这个标准为交换机定义了一组规则用于探知链路层拓扑，并对交换机的链路层转发行为进行控制。如果STP发现网络中存在环路，它会在环路上选择一个恰当的位置阻塞链路上的端口——阻止端口转发或接收以太网帧，通过这种方式消除二层网络中可能产生的广播风暴。然而在实际部署中，为确保网络的高可用性，无论是数据中心网络还是园区网络，通常都会采用具有环路的物理拓扑，并采用STP阻塞部分端口的转发。对于被阻塞端口，只有在处于转发状态的端口及链路发生故障时，才可能被STP加入到二层数据帧的转发树中。

图1 STP引起的带宽利用率不足的问题

STP的这种机制导致了二层链路利用率不足，尤其是在网络设备具有全连接拓扑关系时，这种缺陷尤为突出。如图1所示，当采用全网STP二层设计时，STP将阻塞大多数链路，使接入到汇聚间带宽降至1/4，汇聚至核心间带宽降至1/8。这种缺陷造成越接近树根的交换机，端口拥塞越严重，造成的带宽资源浪费就越可观。

可见，STP可以很好地支持传统的小规模范围的二层网络，但在一些规模部署虚拟化应用的数据中心内(或数据中心之间)，会出现大范围的二层网络，STP在这样的网络中应用存在严重的不足。主要表现为以下问题(如图2所示)。

图2 STP的低效路径问题示意图

#p#

1. 低效路径

流量绕行N-1跳

路由网络只需N/2跳甚至更短

2. 带宽利用率低

阻断环路，中断链路

大量带宽闲置

流量容易拥塞

3. 可靠性低

秒级故障切换

对设备的消耗较大

4. 维护难度大

链路引起拓扑变化复杂

容易引发广播风暴

配置、管理难度随着规模增加剧增

由于STP存在以上种种不足，其难以胜任大规模二层网络的管理控制。

2 IRF技术应用分析

H3C IRF(Intelligent Resilient Framework)是N:1网络虚拟化技术。IRF可将多台网络设备(成员设备)虚拟化为一台网络设备(虚拟设备)，并将这些设备作为单一设备管理和使用。

IRF虚拟化技术不仅使多台物理设备简化成一台逻辑设备，同时网络各层之间的多条链路连接也将变成两台逻辑设备之间的直连，因此可以将多条物理链路进行跨设备的链路聚合，从而变成了一条逻辑链路，增加带宽的同时也避免了由多条物理链路引起的环路问题。如图3所示，将接入、汇聚与核心交换机两两虚拟化，层与层之间采用跨设备链路捆绑方式互联，整网物理拓扑没有变化，但逻辑拓扑上变成了树状结构，以太帧延拓扑树转发，不存在二层环路，且带宽利用率最高。

图3 基于IRF构建二层网络

简单来说，利用IRF构建二层网络的好处包括：

简化组网拓扑结构，简化管理

减少了设备数量，减少管理工作量

多台设备合并后可以有效的提高性能

多台设备之间可以实现无缝切换，有效提高网络HA性能

目前，IRF技术实现框式交换机堆叠的窬量最大为四台，也就是说使用IRF构建二层网络时，汇聚交换机最多可达4台。举例来说，汇聚层部署16业务槽的框式交换机(4块上行，12块下行)，配置业界最先进的48端口线速万兆单板。考虑保证上下行1:4的收敛比，汇聚交换机下行的万兆端口数量48*12=576。接入交换机部署4万兆上行，48千兆下行的盒式交换机。4台IRF后的汇聚交换机可以在二层无阻塞的前提下接入13824台双网卡的千兆服务器，可满足国内绝大部分客户的二层组网需求。

少部分客户期望其服务器资源池可以有效扩充到2万台甚至更大。这样，就需要其他技术提供更大的网络容量。

#p#

3 TRILL技术应用分析

图4 数据中心Trill大二层组网架构示意图

采用TRILL技术构建的数据中心大二层网络如图4所示，网络分为核心层(相当于传统数据中心汇聚层)、接入层。接入层是TRILL网络与传统以太网的边界;核心层RBridge不提供主机接入，只负责TRILL帧的高速转发。每个接入层RBridge通过多个高速端口分别接入到多台核心层RBridge上。准确的说，TRILL最大可以支持16台核心层RBridge。这样也就对接入层交换机提出了更高的要求：支持16端口万兆上行，160千兆下行。目前的主流千兆交换机都是4万兆上行、48千兆下行。最高密度可以支持到10万兆上行，96千兆下行。如果与前面IRF组网采用相同的汇聚(TRILL核心)设备和收敛比，TRILL目前最大可以支持10核心组网，其最大能力可以无阻塞的接入27648台双网卡千兆服务器。可以直观的看到，随着汇聚交换机数量的增加，二层网络服务器的接入规模直线上升。这是目前TRILL相对于IRF最明显的优势。

虽然TRILL成功扩展了虚拟机资源池的规模，但是目前大规模的二层网络缺乏运维经验，这意味着运维成本会大幅度提升，同时给业务系统带来巨大的风险。同时，TRILL技术目前在芯片实现上存在客观缺陷：核心层不能支持三层终结，也就是说TRILL的核心层不能做网关设备。必须要在核心层上再增加一层设备来做网关(如图5所示)。这导致网络结构变得复杂，管理难度增加，网络建设、运维成本都会增加。

图5 数据中心Trill组网网关设计架构示意图

4 SPB技术应用分析

SPB的组网方案和TRILL基本相同(图4所示)。同样最大可以扩展16台汇聚交换机增加二层网络接入规模;同样对接入交换机的接入密度提出更高的要求;同样存在网关与SPB核心必须分离的芯片缺陷(图5所示)，导致网络层次增加，管理、运维成本增加。

相对于TRILL，SPB最大的优势在于能够方便的支持VLAN扩展功能，正是这一点吸引了很多需要支持多租户业务的运营商以及有规模运营需求的企业的关注。

#p#

5 EVI技术应用分析

由于大规模的二层网络缺乏成功的运维经验，所以最合理的虚拟化网络应该是L3+L2网络模型。如前文所述，由于EVI特性可以通过汇聚层和核心层之间的IP网络实现二层互通，所以通过EVI扩展多个二层域的时候不需要更改布线或是设备，仅仅需要在汇聚设备上启用EVI特性即可。这样可以平滑的扩展二层网络的规模。

目前L3路由+L2 IRF+EVI是最适合云计算虚拟化数据中心网络的模型。其主要的优点包括：

技术成熟，架构稳定

丰富的运维经验，便于维护

平滑的扩容能力，能够支持大规模二层网络

6 技术应用对比

二层网络挑战	STP	IRF	TRILL	SPB	L3+L2 IRF+EVI
环路管理	非常复杂	天然无环	路由方式	路由方式	天然无环
最短路径转发	不支持	树形结构，天然支持	支持	支持	树形结构，天然支持
带宽利用率/负载均衡	不支持	二层hash，均衡且性能高	路由hash,均衡且性能高	实例预置路径，不够均衡	二层hash，均衡且性能高
快速收敛HA	收敛较慢	50ms收敛	不支持OAM，路由计算收敛较慢	支持OAM，收敛较快	50ms收敛
安全隔离/Vlan扩展	不支持	支持QinQ或是PBB	不支持	支持PBB	支持QinQ或是PBB
运维管理	及其复杂	成熟、简单	缺乏运维经验	缺乏运维经验	成熟、简单
互通性/标准化	标准	汇聚层IRF私有协议，与接入层通过LACP标准互通	标准，但要求整网统一标准	标准，但要求整网统一标准	IRF和EVI都是私有协议
网关设计	网关合一设计	网关合一设计	网关独立，网络多一层结构	网关独立，网络多一层结构	网关合一设计
接入规模（台双网卡服务器）	<100	<13824	<27648	<27648	<221184

7 结束语

虚拟化数据中心内通常采用服务器二层接入方案，以实现灵活扩展资源池能力。随着企业对计算资源灵活调度能力要求的不断提升，必然将面临大规模二层网络问题。本文列出五种不同实现技术，各有特点。技术没有最好的，只有最适合的。希望通过本文的阐述与分析，给读者一些帮助与启发，以便未来实现数据中心大规模二层网络时选择最适合的技术方案。

其他大二层组网技术简介

Fabricpath

Fabricpath是由Cisco提出，和TRILL非常相似的一种技术。Fabricpath和TRILL对比来看，主要在于封装更加精简，支持多拓扑能力，在控制管理层面上精耕细作，成熟度要好一些。

ž Qfabric

是Juniper提出的技术，将交换机的控制软件拉到外部的服务器上运行，整个网络采用集中控制集中管理的方式。缺点是：扩展性不好，部署案例少，成熟度待检验。

VXLAN/NVGRE

业界最近出现了一种通过在vSwitch上支持L2oIP的技术，有VXlAN(Virtual eXtensible LAN)和NVGRE(Network Virtual GRE)，前者是由VMware和思科提出的标准，使用了L2oUDP的封装方式，支持16M的tenant ID;后者是由HP和微软提出的标准，使用了L2oGRE封装方式，也支持16M的tenant ID。这两种技术的主要特点是隧道的起点和终点主要在vswitch上，而不是物理交换机上。隧道的封装在服务器内部的vswitch就已经打好，然后将物理网络当作大的IP背板加以穿透，大二层范围可以跨DC。以期达到快速部署，灵活创建虚拟化网络的目的。