直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的记忆,优秀影视剧评论

admin 3个月前 ( 05-29 04:41 ) 0条评论
摘要: 作者不仅复现出原论文的结果,在许多网络结构上甚至超出原论文的效果,而且对于目标检测、图像分割算法同样有提升作用。...
重视微信大众号:人工智能前沿讲习,
重磅干货,第一时间送达


论文复现对许多人而言难度都比较大,由于常常触及许多细节,部分细节关于模型作用影响很大,可是却很罕见文章介绍这些细节,前段时间正好看到这篇文章,再加上之前直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论就有重视GluonCV,因而就抽暇看了下这篇文章。这篇文章是亚马逊科学家介绍CNN网络调优的细节,许多试验是在图画分类算法做的,比方ResNet,作者不只复现出原论文的成果,在许多网络结构直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论上乃至超出原论文的作用,并且关于方针检测、图画切割算法相同有提高作用。

现在这帝御九荒些复现成果都能够直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论在GluonCV中找到:

https://github.com/dmlc/gluon-cv, GluonCV是亚马逊推出的深度学习库,除了供给许多图画使命的论文复现成果,还供给了十分多常用的数据读元武擎天取、模型构建的接口,大大降低了入门深度学习的门槛。因而这篇文章能够看作是一群经验丰富的工程师介绍炼丹技巧,协助广大读者炼出更好的丹药,个人感觉十分有用。

首要能够先来看看作者练习的ResNet50网络的作用。在Table1中比照了现在几个常用分类网络的作用,终究一行是作者经过增加各种练习技巧后复现的ResN稻田养鱼技能视频et-50作用,和原论文的成果比照提高十分显着(top-1精确率从75.3提高到79.29)。

已然要做比照试验,那么首要要有一个baseline,直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论这个baseline便是作者复现相关算法的成果,这个baseline的复现细节能够参阅论文2.1节内容,包含数据预处理的方法和次序、网络层螺旋电缆参数初始化方法、迭代次数、学习率改动战略等,这儿不再赘述。Table2是作者选用baseline方法复现的3个常用分类网络的成果,能够看出来作用k990根本上和原论文差不多,这盛朝原始剑里的b硫酸铷aseline也将作为后续试验的比照方针。

介绍完baseline后,接下来便是这篇论文的要点:怎样优化?整篇论文首要从加快模型练习、网络结构优化和练习调优3个部别离离介绍怎么提高模型作用,接下来别离介绍。


一、加快模型练习部分

这部分首要有2块内容,一块是选用更大的batch size,另一块是选用16位浮点型进行练习。

选用更大的batch size能够在全体上加快模型的练习,可是一般来说假定只增大batch size,作用不会太抱负,这部分现在有比较多的研讨论文,比方Facebook的这篇:Accurate, Larg直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论e Minibatch SGD:

Training ImageNet in 1 Hour,作者也总结了首要的几个解决方案:

1、增大学习率,由于更大的batch size意味着根据每个batch数据核算得到的梯度愈加靠近整个数据集(数学上来讲便是方差更小),因而当更新方向愈加精确后,迈的脚步也能够更大了,一般来说将batch size修改为本来的几倍,那么初始学习率也需求修改为本来的几倍。

2、用一个小的学习首先训几个epoch(warmup),由于网络的参数是随机初始化的,假定一开始就选用较大的学习率简略呈现数值不安稳,这是运用warmup的原因。比及练习进程根本安稳了就能够运用原先设定的初始学习率进行练习了。作者在完成warmup的进程中采400kva变压器用线性增加的战略,举例而言,假定warmup阶段的初始学习率是0,warmup阶段共需求练习m个batch的数据(完成中m个batch共5个epoch),假定练习阶段的初始学习率是L,那么在batch i的学习率就设置为i*L/m。

3、每个残差块的终究一个BN层的参数初始化为0,咱们知道BN层的、参数是用来对标准化后的输入做线性变换的,也便是x^+,一般参数都会初始化为1,作者以为初始化为0更有利于模型的练习。

4、不对bias参数履行weight decay操作,weight decay首要的作用便是经过对网络层的参数迷镇凶案(包含weight和bi总裁的风水宝妻as)做束缚(L2正则化会使得网络层的参数愈加滑润)到达削减模型过拟合的作用。

选用低精度(16位浮点型)练习是从数值层面来做加快。一般来说现在大部分的深度学习网络的输入、网络参数、网络输出都选用32位浮点型,现在跟着GPU的迭代更新(比方V100支撑16为浮点型的模型练习),假定能运用16位浮点型参数进行练习,就能够大大加快模型的练习速度,这是作者加快练习最首要的办法,不过现在来看应该只要V100才干支撑这样的练习。

那么这二者的优化作用怎么?Table3是选用更大的batch size和16位浮点型进行练习的成果,能够看出和本来的baseline比较练习速度提高仍是比较显着的,作用上也有必定提高,尤其是MobileNet。

具体的比照试验能够参阅Table4。


二、优化网络结构部分

这部分的优化是以ResNet为例的,Figure1是ResNet网络的结构示意图,简略而言是一个input stem结构、4个stage和1个output部分,input stem和每个stage的内容在第栾立平二列展现,每个玄笔录前传之怨妖坛residual block的结构在第三列展现,全体而言这个图画得十分明晰了。

关于residual block的改善能够参阅Figure2,首要有3点。

1、ResNet-B,改善部分便是将stage老版的小寡妇上坟中做downsample的residual block的downsample操作从第一个11卷积层换成第二个33卷积层,假定downsample操作放在stride为2的11卷积层,那么就会丢掉较多特征信息(默许是缩减为1/4),能够了解为有3/4的特征点都没有参加核算,而将downsample操作放在33卷积层则能够削减这种丢掉,由于即使stride设置为2,可是卷积核尺度够大,因而能够掩盖特征图上简直一切的方位。

2、ResNet-C,改善部分便是将Figure1中input stem部分的77卷积层用3个33卷积层替换。这部分学习了Inception v2的思维,首要的考虑是核算量,究竟大尺度卷积核带来的核算量要比小尺度卷积核多不少,不过读者假定细心核算下会发现ResNet-C中3个33卷积层的核算量并不比本来的少,这也是Table5中ResNet-C的FLOPs反而增加的原因。

3、ResNet-D,改善部直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论分是将stage部分做downsample的residual block的支路从stride为2的11卷积层换成stride为1的卷积层,并在前面增加一个池化层用来做downsample。这部分我个人了解是尽管池化层也会丢掉信息,但至少是经过挑选(比方这儿是均值操作)后再丢掉冗余信息,比较stride设置为2的1*1卷积层要好一些夺命毒蜂。

终究关于网络结构改善的作用如Table5所示,能够看出在作用提高方面仍是比较显着的。


三、模型练习调优部分

这部分作者提到了4个调优技巧:

1、学习率衰减战略选用cosine函数,这部分的试验成果比照能够参阅Figure3,其间(a)是cosine decay和st吴昊俣ep decay的示意图,step decay是现在比较常用的学习率衰减方法,表明练习到指定epoch时才衰减学习率。(b)是2种学习率衰减战略在作用上的比照。

2、选用label smoothing,这部分是将本来常用的one-hot类型标签做软化,这样在核算丢掉值时能够在必定程度上削减过拟合。从穿插熵丢掉函数能够看出,只要实在标签对应的类别概率才会对丢掉值核算有所协助,因而label smoothing相当于削减实在标签的类别概率在核算丢掉值时的权重,一起增加其他类别的猜测概率在终究丢掉函数中的权重。这样实在类别概率和其他类别的概率均值之间的gap(倍数)就会下降一些,如下图所示。

3、常识蒸馏(knowledge distillation),这部分其实是窃种情人模型加快紧缩范畴的一个重要分支,表明用一个作用更好的teacher model练习student model,使得student model在模型结构不改动的情况下提高作用。作者选用ResNet-152作为teacher model,用ResNet-50作为student model,代码上经过在R泰介强x了桂言叶几回esNet网络后增加一个蒸馏丢掉函数完成,这个丢掉函数用来点评teacher model输出和student model输出的差异,因而全体的丢掉函数原丢掉函数和蒸馏丢掉函数的结合:

其间p表明实在标签,z表明student model的全衔接层输出,r表明teacher model的全衔接层输出,T是超参数,用来滑润softmax函数的输出。

4、引进mixup,mixup其实也是一种数据增强方法,假定选用mix直辖市,潘辰,清宫图-同福社区,那一年在同福客栈的回忆,优异影视剧谈论up练习方法,那么每次读取2张输入图画,假定用(xi,yi)和(xj,yj)表明,那么经过下面这两个式子就能够组成得到一张新的图画(x,y),然后用这张新图画进行练习,需求留意的是选用这种方法练习模型时要训更多epoch。式子中的是一个超参数,用来调理组成的比重,取值规模是[0,1]。

终究这欲医4个调优技巧的试验成果公公偏头疼比照方Table6所示。

终究作者也证明了在分类算法中的这些优化点在其他图画使命中相同有用,比方方针检测使命,如Table8所示,能够看出在ImageNet数据集上体现最好的图画分类算法相同在VOC数据集上有终究的体现。

另外在语义切割使命上也有相似的搬迁作用,如Table9所示。

全体而言,这篇论文供给了模型优化方面的炼丹诀窍,选用作者复现的这些模型搬迁到个人数据集上也能看到显着的作用提高,真的是十分有用。


本文版权归《极市渠道》


文章版权及转载声明:

作者:admin本文地址:http://www.tofuya.net/articles/1391.html发布于 3个月前 ( 05-29 04:41 )
文章转载或复制请以超链接形式并注明出处同福社区,那一年在同福客栈的记忆,优秀影视剧评论