技术文章|超大数据中心架构,光电互联接口数量及类型浅谈-ag捕鱼平台

恭喜,提交成功!

抱歉,提交失败!

股票代码: 300394

语言/language

您当前的位置:首 页 >新闻中心 >企业新闻

技术文章|超大数据中心架构,光电互联接口数量及类型浅谈

发布日期:2019-03-27 来源:天孚通信 肖明 点击: 3576

注: 本文转载于行业媒体光纤在线

原文作者:肖明 (现任天孚通信研发和战略副总经理)


1/2019,最近和几个业内朋友聊天时,发现很多人对于使用什么底层网络架构,如何演进,会需要什么类型的光电接口,什么数量级,怎么计算需求等等存在很多疑惑。心血来潮想结合过往的经验,写点东西,权当抛砖引玉,仅供大家参考和讨论,个中偏颇之处还请大家指正。 


    首先要提到的是摩尔定律(moore’s law),其在的演进中表现的非常明显。几乎每2年的交换带宽在价格不变的情况下翻倍,从而满足快速增长的超级应用对于带宽的需求,尤其是视频类的应用。比如字节跳动(今日头条的母公司)旗下在北美的小视频app,tik tok,流量指数级暴涨让其服务商阿里云在北美不断忙于升级,当然也是“痛并快乐着”。 

    这里以谷歌的拓扑架构为例,(以后有机会再一起探讨facebook,microsoft等的架构)。谷歌在过去十来年已经演进了好几代,主要是基于clos网络拓扑架构,从一开始的firehose,逐渐演化到watchtower,saturn,到近些年不少场合被提到的jupiter。交换设备接口速率也从1gbe演进到了be/be,be也正在小量应用中。图1给出了谷歌拓扑架构的演变示意,表1则给出了每个世代的架构参数。更具体的内容可以参考知乎上的文章【1】。 

图1:谷歌拓扑架构的演变示意 
  
表1:谷歌每个世代的架构参数

    clos网络架构最早是由charles clos于1952年设计出的,用多级的小型交换机阵列构建一个“无阻塞”的网络,有这么几个特点: 
 主要为三级交换架构 
 每一级的每个单元都与下一级的设备互联 
 支持递归,带宽可无限扩展,对任意一台服务器,能使用网卡的最高带宽与任意一台服务器通信 
 向后兼容,兼容现有的以太网及应用 
 到指定的目的地,路由选择在第一级是可以有多个路径,但后续交换单元之间只存在唯一一条路由 
    clos网络架构比较简单,不少白盒机厂商用broadcom的交换芯片就可以生产出性能不错的高端交换机。现在越来越多的在使用clos网络拓扑架构。 
    传统中南北向(关于网络中南北东西的解释可以参考【2】)的流量较大,但随着分布式计算需求的兴起,东西向的流量快速加大,一方面分布式计算导致服务器之间的访问需求大幅增加;另一方面,应用也变得越来越复杂,比如物联网中的某个用户发起请求,中心服务器可能需要从众多边缘或者服务器抽取一些数据,处理后再返回到用户,如此东西向的流量就变得越来越大,甚至大过南北向流量。这也就是为什么最近几年之间的互联需求增长幅度要快于内部互联,见表2,cisco global cloud index 2016-2021, 

表2:cisco global cloud index 2016-2021

    jupiter是基于一个bps的网络,其架构有这个几个特点: 
1. centauri tor(top of rack)交换机每一个基础单元是一个4u的机箱,每一个含有6(16x)的交换芯片,共计4x16x的交换容量。如果按3:1南北向分配,则可以配置为48x容量南向到服务器,16x北向到fabric network,或者以bps为基础速率,192x南向和64x北向。当然,也可以做1:1分配,南北向各32x,如图2。

图2:centauri tor(top of rack)交换机配置

2. 中间区块(middle blocks)由4个centauri交换机组成,其交换容量为4x4x(16x),但每个中间区块都由2级(two-stage)clos交换机组成,每一级可以配置为64x北向到spine交换机,64x或者256x南向连接32个tor交换机。 
3. 每个汇聚区块(aggregation blocks)由8个中间区块构成,其交换容量为8x(64x)即512x北向到spine交换机,南向8x(256x)即2048x到tor交换机。 
4. spine交换机由2-stage clos交换机组成,即2x(64x)与汇聚区块互联。 
  
   这样对于一个jupiter,其架构为256个spine交换机,南向与64个汇聚区块互联,每个汇聚区块南向与32个tor交换机互联,也就意味着总共需要2048(=64x32)个tor机柜;每台机柜可以有最多48台服务器,满配也就是说98304台服务器;每台服务器可配置2个高速网卡,即一个jupiter会需要196,608个高速网卡。 

图3 jupiter架构

    从以上的架构来看,想必大家已经可以自己算出来光电接口的数量了。这是以最大基础速率bps的google jupiter举的例子,当然如果最大基础速率是bps或者bps,同时服务器网卡最小速率为2bps或者50gbps,大家可以依此方式做相应的推演。 
     
    当然,未来的演进还是有不少挑战的。比如电交换的速率逐渐会遇到瓶颈,以broadcom的switching asic为例,从早先2011年发布的6交换容量的trident,到2014年发布的1.2t trident 2,2015年发布的3.2t tomahawk,到2017年末发布2018年3季度量产的基于16nm cmos工艺的12.8t tomahawk 3,技术路线图发展还是很快的,但后面的25.6t及以上交换芯片的推出时间存在很多不确定性,主要是因为芯片的bga封装pin脚密度,io数量快速提升难度很大。 

图4:引入技术的刀片服务器

    如上图4,因为技术的引入,一台刀片服务器的尺寸可以大幅削减60%以上,同时,速率大幅提升以及功耗的大幅下降是显然易见的好处。这也就直接驱动主流的芯片公司甚至具体设备商们,最近几年大量投入在技术(silicon photonics,sip),以及2.5d/3d的芯片封装技术等。关于技术,以后再找机会做专题讨论。 

图5:内部

    另外,也有几个会限制的发展速度,比如ieee在pcie总线接口标准的演进太慢,目前主流仍然是pcie 3.0,每个lane的速率仅为8gbps,不少业内专家也在呼吁直接跳过pcie 4.0去发布pice 5.0,每个lane的速率达到32gbps,这样光电速率可以匹配。其它,比如serdes演进(2-50g),制冷(传统风冷到液冷),serverless等等,也都是不小的话题。 
     
    总的来说,未来的架构是朝着“模块化、扁平化、易扩展”这几个方向在发展,超大型云服务商们也越来越重视网络架构的演进和优化,物联网,一定会催生出超级应用,从而推进的快速发展。希望有机会与业内人士多多探讨这方面的话题。下篇将更多探讨光电互联接口在的应用。 

参考文章: 
1 google过去十年发展网络的经验 陈宇飞 https://zhuanlan.zhihu.com/p/29945202 
2 网络的东西南北:抛弃sdn,迎接网络虚拟化? https://www.csdn.net/article/2014-01-23/2818233-sdn-network-virtualization 
3 “jupiter raising: a decade of clos topologies and centralized control in google’s datacenter network”
4 “cisco global cloud index 2016-2021 white paper” 
5 “facebook’s data center network architecture” 
6 肖明,2016年,“future data center and high speed optics interconnection”