位置:编程技术网 > 人工智能 > 正文 >

云计算十年:阿里云第三代神龙云服务器如何挑战摩尔定律极限

2020年07月19日 11:02来源:未知手机版

led 芯片,医患关系案例,水果简笔画图片

经济观察网记者 陈伊凡 7月15日,一袭粉色衬衫的张献涛站在屏幕前,通过钉钉直播2020阿里云弹性计算产品年度发布会,在会上宣布推出第三代神龙云服务器——目前整体算力最强的服务器,比目前全球最顶级云服务器的综合性能要快30%以上。

张献涛是阿里云弹性计算产品线负责人,经历云计算从无到有、从弱到强,在云计算一线已经工作15年。过去十年,阿里云的存储性能提升了2000倍,网络性能提升了500倍,整体算力以平均每12个月翻一番的速度增长,向摩尔定律的极限发起挑战。“十年时间的发展,我们重构了整个计算的服务模式。”张献涛说。

在阿里内部,神龙架构已经大规模应用于淘宝、天猫、菜鸟等业务,解决高峰值的性能瓶颈问题。在发言和后续的采访中,张献涛解释了当初为何阿里决定自研神龙,十年间企业需求的变化以及未来迭代的方向。

变化的客户需求

“十年前,我们可能更多是劝客户上云,但今天是和他们一起探讨如何选好云、用好云,解决性能、稳定性、弹性等这些方面的诉求。”这是在一线的张献涛发现的变化。

客户们的诉求,在过去10年间变得更加清晰,第一诉求是业务永续,第二是性能极致,第三就是对资源的极速、弹性诉求,第四个是自助服务。

这样的需求变化其实不难理解。对于传统数据中心,经常会碰到各种由于硬件故障或IDC故障导致宕机的问题,这些企业上云后,期待云计算能够解决他们业务永续的问题。

这也给云计算带来新挑战。“过去几年,我们不断做产品和技术方面的创新,我们有上百万台服务器,积累大量硬件故障相关的信息,通过人工智能及其学习的模式,对一个即将要发生故障的硬件进行提前预测,在发生故障之前,就把客户的业务通过热迁移模式,迁移到一台好的机器上,避免业务中断。”

此外,企业上云的另一个关注点就是如何提高业务性能。阿里的做法是自研神龙计算平台、盘古存储平台和洛神网络平台,通过这种软硬件结合的方式提升计算的效率。去年,阿里云发布了自研的针对人工智能业务的含光芯片加速器。

每个业务都可能有波峰波谷,当波峰到来时,对应的平台算力就要提升,否则业务就会受到影响。像有社会热点发生时,微博需要弹出几倍算力去应对热点事件,需要在几分钟内弹出几十万核甚至上百万核的算力,去应对突增的业务访问请求。

张献涛解释,这在传统IT时代很难完成,因为IT资源的扩充需要以月为单位来满足。“云计算时代,使用弹性计算产品可以在几分钟内弹出50万核来应对这种突发业务。”他们现在在底层平台也进行一些优化,和达摩院的算法科学家进行合作,对客户的业务负载做一些预测。

除了以上三点变化,客户还体现出自助服务的诉求。“也许客户没有提出这个诉求,但我们在和他们沟通的过程中发现,他们其实遇到了这方面的问题,在迁云阶段,也为了解决迁移上云难的问题,开发了一键式的迁移上云服务中心,还有一些自动化诊断、自动化运维编排的能力,能够让企业们免去人力运维。”

自研神龙

一直以来,性能损耗是虚拟化技术无法规避的难题,无论服务器多先进,只要是虚拟化,就一定会有部分性能要用在虚拟化调度上,这也是整个云计算行业尚未被解决的问题。

很多企业使用虚拟机和虚拟化管理系统的宿主机是 “共处一室”,这会导致资源的争抢,带来虚拟机计算能力的波动。云厂商没法把这台机器的全部算力给到客户。例如,一个32核的物理服务器,云厂商只能把16核或20核给到客户,剩下的12核需要对存储、网络进行虚拟化。

资源的浪费带来了成本的提升。正因为性能和成本的问题,很多企业上云之后又回到传统IT。为了解决这一问题,2016年阿里云低调启动了一项代号为“X-Dragon”的项目。

为什么决定自己做,张献涛解释,2016年正遇到阿里巴巴这个经济体的业务往云上迁移,对产品提出更高要求。他们在评估业界同行的芯片之后,发现无法满足阿里的业务需求,因为其整体设计还是传统的X86架构。

本文地址:http://www.reviewcode.cn/rengongzhinen/157885.html 转载请注明出处!

今日热点资讯