http://www.wanxiangshu.com

光子AI芯片算法先行硬件跟进,为传统加速计算卡装上“涡轮增压”

在日前举办的GTIC2020上,光子算数创始人兼CEO白冰发表了一场题为《AI芯片的另一条路:光子芯片》的主题演讲。作为一家国内少有的光子AI芯片赛道玩家,白冰在演讲中与大家分享了光学芯片的工程化进展、市场定位及目标客户、具体研发实施路径及相关适配算法等话题。

一、光学芯片工程化进展,已至测试阶段

与常规数字芯片不同,白冰所创立的光子算数,采取了另外一条技术路线——光子芯片。

白冰说,用光学做计算处于比较早期的阶段。目前光子算数团队已将其做成测试级的产品,并于今年放至服务器厂商客户处进行测试。

作为一家初创公司,光子算数和高校、研究所等几家单位共同工作。其早期样片集成了几百个不同的光学单元,比如有电光转换,把电信号加载到光载波,然后通过传播到片内的光学组合,完成一些特定的函数变换。跟传统的计算特征不同,它不是面向加减乘除,而是直接完成一个复杂的变化过程。

这被称为可编程光子阵列芯片FPPGA(FieldProgrammablePhotonicGateArrays),其中的光学单元可以通过电控,控制重新的连接组合方式,实现不同的复杂函数。也就是说,FPPGA具有可重构的特性。

7ba19f41205244b5a3cab6c9a6998585.png

光学芯片加速的不是完整算法,和所有的数字芯片一样,光学芯片面向复杂函数做加速计算,其计算对象是特定算子。光的劣势在于不是特别灵活,但是在某些函数上有优势。

整个系统是光电混合的,数据在光电两部分中完成一个流动,执行一个完整的计算过程,由光学、电学芯片构成光电混合AI计算硬件系统。

光电混合系统仍要做到软硬协同,开发适合光学加速的算法,使得光电混合系统的硬件物理架构与算法的运算/访存特征相匹配。

418ec51363a64c0d89e90da9a9d35e2a.png

从技术架构图可以看到,左边是电学部分,包含逻辑控制、缓存等,以及专用的定制化IP。考虑到与光学芯片匹配,这些IP与传统的数字IP不一样,需要定制化开发;右边是光学模组,除了光学计算芯片外,还有一颗DFB激光器芯片,还有驱动、TIA以及小型的控制、电源芯片等组件。

中间采用热插拔的方式,跟通信模块一样。之所以选择这一方式,是因为光子算数团队考虑到光芯片、电芯片放到一起,可能卖不出去,因为很难拼得过GPU,考虑到其产品定位,因此做成插拔型。

光子算数与高校一起打造了面向服务器的光电混合AI加速计算卡,目前已完成一些定制化加速任务,包括机器学习推理、时间序列分析等特定任务。白冰说,计算卡现在的性能可用,不过还比较初步,能做到36路1080P视频同步处理,功耗不到70W,算力资源相对有限,混合精度下峰值算力接近20TOPS,光部分为低精度,电部分为高精度。

f353eda4fa5f46a0a114de93236833bc.jpeg

计算卡封装有光子协处理引擎模块,散热器、驱动、控制器、TIA、一些计算控制部分和赛灵思FPGA芯片,数据在光电之间形成循环流动。光的定位是为电做协处理加速。

其中光子协处理引擎模块用的是两个QSFP28的光通信接口(每个都是100GB/s),光通信物理接口非常成熟,其光学带宽大约达200GB/s,典型功耗达7W,算力在1.2TOPS左右。该模块支持热插拔,不需要经过预调,内部封装了一些适合于用光学做的特殊的算子函数,比如随机投影、高维空间变换映射、压缩、小规模卷积、时间序列等高算子。现在该模块还比较初步,下一阶段,光子算数会进一步扩大其规模。

光子协处理引擎模块里面是两层结构,上面是控制模组,其二级控制缓存处理随时可以换,以适应下一步软件迭代;下面是光学运算模组,包含整个光学计算部分,其中集成了大量的光学单元,为了一些特定的函数,可以做低延时、低能耗的变换过程。

4cd927f472b3424f8f887f96a3edc15b.png

完整计算过程是FPGA接收的数据从电接口进来,经过驱动放大,驱动光芯片上的调优器,把信号再返到光上,经过片内传输完成变换,然后再变成电信号返回。

目前光子算数已将一些光电混合AI加速计算服务器提供给机房和IDC试用与测试,接口是标准的PCIe口。此外,其服务器也与一些国产操作系统和CPU厂商做了适配。

d167874798564b88b459f2dbc6c67cc0.png

白冰坦言,该服务器目前性能仍较有限,70W运行功耗下,大概能做三四十路的视频同步处理,跟纯电比没有那么强。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。