HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

10次阅读

TCL研究院俞大海：我从智能制造实践中总结出的几点经验丨CCF-GAIR 2019
TCL研究院（香港）研究所总经理俞大海以《AIxIoT-TCL人工智能技术在智能制造的应用》为主题，分享了TCL在智能制造领域的实践与经验。

风情信息AI研习社按：DAC19目标检测设计是一个面向移动端的单目标物体检测的比赛，检测精度高且能耗低者胜出。我们团队设计了单目标检测的深度学习算法ShuffleDet，和面向Xilinx ZU3的AI硬件加速器，获得了FPGA赛道的第二名。本次分享主要介绍我们团队的设计方案。

分享嘉宾：赵文哲，西安交通大学人工智能与机器人研究所研究员，伦斯勒理工学院访问学者，主要研究方向为计算机体系结构，纠错码设计，以及企业级存储方案设计。

公开课链接：http://www.mooc.ai/open/course/674?=from%20leifeng0717

分享主题：HiPU设计简介–DAC19目标检测设计竞赛FPGA赛道亚军方案介绍

分享提纲：

DAC19比赛背景介绍；
算法选择及训练介绍；
一种通用目的的AI加速器设计简介；
性能分析与结论。

风情信息(公众号：风情信息)AI研习社将其分享内容整理如下：

大家好，我们来自于西安交通大学人工智能研究所。在今年DAC会议举办的自动化系统设计大赛上获得了亚军，今天主要介绍一下我们的设计方案。我负责这个方案的算法部分，算法部分主要进行了目标检测递层框架的搭建、神经网络算法的压缩，后面主要由赵老师讲一下硬件架构的设计。

这个是由英伟达、大疆他们共同组建的一个比赛，数据集由大疆提供——基于大疆无人机拍摄出的目标检测的数据集，比赛从准确率、速率、网络效率等方面综合考量之后，给参赛队伍一个相应的分数，以上这些是关于比赛的大概介绍。

在比赛中，算法方面主要是两个工作，第一个是神经网络的选取，这个工作需要在一非常小的BP上配置神经网络，所以首选储存空间小、效率高的这种来作为特征提取的基本网络。在这个网络训练过程中，主要进行了两个部分的优化，首先是将神经网络进行预训练，第二个优化是针对硬件优化的，将ShuffleNet V2变成8的倍数，方便后面进行配置。

算法方面的第二个工作主要是介绍网络的量化，网络的量化也分为两个主要的部分，首先是将一些特殊的层进行融合，如图示左边部分。其次是8bit的量化过程，如图示右边部分。

下面介绍一下量化过程中的一些关键点，第一个点就是神经网络越小，量化难度越高，来看一下下图所示右边部分，是当时我们为了验证这个说法做的一个实验。第二个点就是上一页的cabs函数，这个函数主要是保护权重和输出在要求的范围内不产生溢出，最好是先让网络训练一段时间，在权重和输出都比较稳定的时候再把函数加入进去。第三个点就是ratio_a,指的是输出值，这个值的统计是一个非常精细的过程。第四个需要注意的点就是，在完成离线的量化工作之后，在实际操作中，需要跳过round函数的梯度。

如何加速开启 AI 普惠时代？这四家企业交出了最完美的答卷 | CCF-GAIR 2019
码隆科技、百度飞桨、京东人工智能和神州泰岳，凭借各自在技术突破、落地应用、生态建设等多方面的快速发展脱颖而出，荣获AI+应用平台四大奖项。

关于量化这个领域，建议大家读一下以下这些论文，如下图。

我这部分讲完了，接下来是赵老师来介绍。

在我们的网络和参数训练完成之后，就需要设计一套硬件加速处理器，以便让神经网络能够高效的运行。为了实现上述目标，我们设计了一个通用的，可以支持几乎所有网络的加速器，将它命名为HiPU。这个加速器主要包括这样几个模块，首先是一般的控制模块，除此之外有矩阵运算和矢量运算。在HiPU里面，主要是处理卷积、Depth-wise卷积、padding、pooling、跟channel相关的shuffle操作以及concat操作。

先看一下几个基本操作，如下图右侧所示，是HiPU的基本结构图。

接下来看一下计算过程，以卷积为例，当数据已经放在MRa、MRb中之后，通过计算器发出开始卷积的命令，然后conv_ctrl模块会把一个卷积拆解成很多矩阵运算和矢量运算的指令,MPU和VPU内部会把数据读上来，计算完之后再送到VPU做一次运算的结尾部分，算完之后再写回到MRa之中，流程大概就是这样。DW卷积也是类似，如图所示。

接下来看一下相关的几个优化，首先我们并不是算完一层就立刻返回，以module_c为例，先做一个切分，把前一半的数据直接传到后面，后一半的数据分别经过1×1的卷积，然后经过3×3的卷积，再经过1×1的卷积，和之前的数据做一个shuffle之后输出。在这个过程中，并不是说做一个卷积就算完了就立刻输出。继续讲第二个优化，在此之前说一下我们这种做法的问题，问题是一次需要读入8个输入channel的数据，但是输入层只有RGB三个通路，如果要处理这样的数据，就必须要补上5个channel的0，计算效率也就只有八分之三。针对这个问题，如果第一层卷积是3×3的，可以考虑做这样一个变换，把相关的数据排列过来，如下图，这样的做法可以让卷积效率提高很多。

除此之外我们再看一下作为系统的优化，系统分为PS侧和PL侧，大部分卷积运算都是放在PL侧进行的，最后一层的输出是放在PS侧来做的。在PL侧做大量卷积运算的时候，PS侧是空闲着的，但是现在在做当前图的卷积运算的时候，PS侧会进行下一张图的预读取，通过这种方式可以显著地减少读图所消耗的时间。除此之外是对计算Calc bbox的优化，通过外扩C函数，把计算时间从2毫秒降到0.6毫秒，而且，读图像的时间也可以减少。最后还有一个问题，之前使用的SD卡并不是最好的SD卡，会出现这种PS侧一直在读图，但是PL侧已经算完了的尴尬情况，于是增加了一个门控时钟来降低功耗。