位置:编程技术网 > 运维管理 > 正文 >

超数据中心越来越大 自动化运维面临挑战 英特尔做了啥?

2021年01月24日 06:53来源:未知手机版

路虎女求婚,江一燕背景,英语短语大全

 

今天数据中心的规模越来越大,超大规模的数据中心不断涌现,大型数据中心目前自动化运维是非常大的一个挑战,从底层的设备级管理到机柜级的管理,再到数据中心级的管理,以及上层应用,这是一个逻辑环环相扣的框架。

>对管理部件带来新的挑战

今天的数据中心面临三个层面的挑战:

首先,CapEx投入成本,资源利用率普遍偏低,超过50%的数据中心已经非常不错。

其次,由于考虑业务不确定性,规划数据中心的配套时,通常都做超配的处理,这些资源很少被充分的利用。运营成本、能效利用率,今天为电费掏的每一分钱是否转化为实际业务输出?随着业务规模不断扩大,今天的数据单位业务产出的运营成本到了一定的规模以后,持续摊薄还是跃升?

最后,业务的形态越来越多,业务的迭代速度越来越快,如何提升硬件设计的弹性,满足业务的快速迭代需求?从今天系统的可用性角度看,随着用户将越来越多的关键业务和数据放在云端,云的可靠性和可用性变的尤为关键。

>“由于软硬件的故障或者系统升级带来了业务的中断时间变得越来越敏感,所有这些都推动着支撑云的硬件设计模式向着更加灵活、更加弹性的方式进行转变。”英特尔数据中心平台事业部高级架构师宋川说

维护性停机对数据中心影响巨大

今天,支撑云计算的各种硬件资源,计算存储网络和各种加速设备。在这一层管理固件与硬件紧密配合,形成了支撑整个云计算的基础资源能力。

随着云厂商对云平台硬件定制化需求增加,硬件设计模块化、标准化以及白盒化成为趋势,相配套的固件也需要一个白盒化的模式,不再是黑盒子。

一方面是围绕着芯片的固件支持包,考虑到芯片的复杂性,通常是采用了二进制的方式进行发布。

另外一方面是,围绕开源固件的基础框架,云厂商可以通过这样的开源基础框架,快速的构建一个固件的开发平台,减少固件开发的复杂度以及投入成本。

宋川说:“这主要涉及到三个开源项目,OCP下的开放式系统固件项目,板级管理固件OpenBMC,以及覆盖机柜层面的管理固件OpenRMC。”

基于开源的固件基础框架,云厂商可以构建自己的个性化的固件需求,形成最终的固件产品。其中闭源模式,由云厂商自己完成,或者协同ODM IBV ISV完成。固件和上层软件的接口,英特尔提供固件白盒化支持的方案。

系统固件,围绕服务器芯片各种固件的支持包或者开发包。由于服务器芯片的启动流程比较复杂,为了方便用户系统集成,英特尔把这块做成了二进制包的方式提供给客户。另外,UEFI的开源固件的基础框架,主要是基于EDKII社区的方式进行发布。开放式标准化的系统固件的白盒化的开发模式来支撑今天云厂商对系统固件的白盒化的需求。

另外,板级和机柜层面的管控固件的支持,涉及到OpenBMC和OpenRMC的项目,英特尔对云厂商提供的公版设计,BMC所有特性都是基于OpenBMC的代码数提供的。

今天云厂商对系统的可用性要求越来越高了,一般来说,维护性的需求带来了维护性的停机,整个数据中心的占比30%。非常关注的硬件故障导致的停机只占到10%,可以看出维护性的停机对数据中心的可用性的影响是硬件故障停机的3倍影响。维护性的停机来自系统更新、应用打补丁的过程以及例行的维护性的检查。其中,系统更新影响最大,因为通常会带来平台的重启,会带来业务的下线。

未来云平台能否永不重启?

经常听到云客户问未来在云平台能不能做到永不重启?宋川说:” 受限于软硬件的条件,短时期内永不重启是一个理想,但可以通过技术创新,以及生态的整合来降低由于系统更新带来的维护性停机对业务的影响。”

本文地址:http://www.reviewcode.cn/yunweiguanli/186646.html 转载请注明出处!

今日热点资讯