位置:编程技术网 > 游戏开发 > 正文 >

集成496个核心!RISC

2020年01月15日 00:39来源:未知手机版

临桂机会,学炒股,2016湖南卫视小年夜

目前,Celerity的开源RTL设计已在Celerity网站上提供下载。

美国芯片网站WikiChip Fuse曾对Celerity芯片的技术和架构进行解读,下面则是原文的编译分享:

一、三大主要层,集成496个核心

早在2017年的Hot Chips 29大会上,Celerity团队就已经展示了这款芯片。直到去年的VLSI 2019,该团队又进一步介绍了Celerity二代芯片的PLL(锁相环)和NoC(片上网络)。

Celerity SoC是一个多核多层的AI加速器,包括三个主要层,分别为通用层、大规模并行层和专用层。

为什么要使用分层SoC呢?原因在于,它能够在典型的CPU设计上提供更高的灵活性和功耗效率。

1、通用层。这一层几乎可以执行任何操作,例如通用计算、内存管理,以及控制芯片的其余部分。因此,研发团队集成了Free Chip Project的五个高性能乱序RISC-V Rocket内核。

2、大规模并行层。这一层集成了496个低功耗定制设计的RISC-V核心网络,这些定制核心也被称为Vanilla-5,是一种有序标量内核,其占用的空间远小于Rocket内核。

3、专用层。这一层集成了二值神经网络(BNN)加速器。

实际上,这三层都是紧密连接的,并与400 MHz的DDR存储器接口。

>Celerity多核网络时钟的速度是由一个定制的PLL提供,这是一个相当简单的一阶ΔΣ数字频率转换器PLL。

它使用一个由16个数字控制振荡器(DCO)组成一个组,每个实现单元都是一个环形振荡器,其反相元件装有NAND门FCE。

因此,整个数字PPL是一个完全合成,且自动放置和布线的设计。此外,该PLL在其16nm芯片上的频率范围是10 MHz至3.3 GHz。

>二、硅面积为25mm2,多核阵列复杂性降低

与许多学术项目相同,硅面积也是非常重要的一点。

Celerity整体芯片为25平方毫米(5×5),对它来说,一些关键的架构设计决策都以限制硅面积的需求为主,这在一定程度上也降低了复杂性。

Manycore架构是一个16×31的Vanilla-5 RISC-V小型内核阵列,它的第32行用于外部主机,且该主机用于与芯片上的其他组件进行接口。例如,它会将消息或数据发送到大型Rocket内核中进行最终处理。

此外,它的整个网格为3.38mm×4.51mm(15.24mm2),约占整个芯片的61%。Vanilla-5核心是5级有序流水线RV32IM核心,支持整数和乘法扩展。

在硅芯片上,这些核心能够达到1.4 GHz,比研发团队在Hot Chips 29上展示的第一个硅芯片还要高出350 MHz。

>为了降低多核阵列的复杂性,Celerity使用了分区的全局地址空间、单芯片数据包和远程存储编程模型。

其中,它的阵列利用了全局分区地址空间(GPAS),用32位地址方案将整个内存地址空间映射到网络中的所有节点上,而非利用高速缓存。这一方法不需虚拟化或转换,极大地简化了设计。

研发团队表示,与等效的一致性缓存系统相比,这一设计能够将区域开销降低20倍。

值得一提的是,由于该多核阵列的目标工作负载是AI加速,因此它能够采用显式分区的暂存器存储方案,能够实现高度并行且定义明确的独立流模式。

与此同时,对于这类代码,控制存储器局部性的能力是较为有利的,阵列中的每个核都可以自由执行加载,并存储到任何本地地址。

然而,它只能执行对远程地址的存储。没有远程负载意味着它们将路由器面积减少了10%,并且由于远程存储可以进行流水线处理,因此它能够防止流水线停顿。

本文地址:http://www.reviewcode.cn/youxikaifa/111601.html 转载请注明出处!

今日热点资讯