产业气象站@归一化激活层的进化:谷歌QuocLe等人利用AutoML技术发现新ML模块( 二 )
为处理CIFAR-10中图像分辨率低于ImageNet的问题 , 将以上网络架构的前两个用于缩小空间的卷积步长修改为1 。 研究者将这些调整后的版本分别称为ResNet50-CIFAR , MobileNetV2-CIFAR和EfficientNet-CIFAR 。

文章图片
图5:锚点架构中的模块定义 。 从左到右依次为:ResNet-CIFAR、MobileNetV2-CIFAR和EfficientNet-CIFAR 。
进化
该研究使用的进化算法是锦标赛选择算法的变体 。 在每一步中 , 基于全部层的随机子集构建锦标赛 , 获胜者可以生成突变后的进化版本 , 在经过评估后加入到候选层中 。 因此 , 随着这一过程不断重复 , 候选层的整体质量有所提升 。 研究者还通过保持获选层最近部分的滑动窗口 , 对进化执行正则化 。
选择标准 。 锦标赛获胜者的选择标准并非唯一 , 因为每个层都具备多个分数 。 下面展示了两个可实施的选项:
平均值:具备最高平均准确率的层获胜(如图6中的B);
帕累托:位于帕累托边界上的随机层获胜(如图6中的A、B、C均获胜) 。
突变 。 研究者通过以下三个步骤完成获胜层的计算图突变:
随机均匀选择中间节点;
随机均匀地使用表1中的新操作替换当前操作;
随机均匀地选择该节点的新的继任者 。

文章图片
图6:对于多目标进化的二选一锦标赛评价准则 。
否决机制
质量 。 对于在任意三个anchor架构中进行了100个训练步后验证准确率低于20%的层 , 研究者选择丢弃 。 由于候选层中绝大部分无法获得有意义的学习动态(见图2) , 因此这一简单机制可以确保计算资源集中在对有潜力的少量候选层进行完整的训练 。
稳定性 。 除了质量以外 , 研究者还选择丢弃具备数值不稳定性的层 。 其基本原理是:向着最大化网络梯度范数的方向对抗式地调整卷积权重θ , 从而对候选层进行压力测试 。
实验
在表2中 , 研究者将所发现的层与应用广泛的归一化激活层在ImageNet数据集上进行比较 , 包括使用谷歌之前提出的Swish激活函数的强基线 。

文章图片
表2:不同的归一化-激活层在ImageNet上的测试准确率 。 需要移动平均数的项见图中蓝字 。 对于相同的架构 , 用相同的代码库和相同的训练设置会得到一样的结果 。
表3展示了从另一个搜索实验中得到的EvoNorms的性能数据 , 该实验不使用包含批聚合操作(batchaggregationop)的层 。

文章图片
表3:不具备批统计量的基于样本的层在ImageNet上的测试准确率 。 学习率和批大小呈线性关系 。 对相同的架构 , 用相同的代码库和相同的训练设置会得到一样的结果 。
图7展示了具备大批量的Evonorms的学习动态 。 在相同的训练环境下 , 尽管训练损失较大 , 但在ResNet-50上EvoNorm-B0的性能仍然优于BN-ReLU 。

文章图片
图7:在批大小较大的情况下 , ResNet-50和MobileNetV2在ImageNet数据集上的训练/评估曲线 。 图中显示了每个层对应的测试准确率 。
为了调查该研究发现的层能否在搜索时的分类任务以外的任务上实现泛化 , 研究者将其与MaskR-CNN(Heetal.,2017)和ResNet-FPN(Linetal.,2017)进行配对 , 并在COCO数据集上执行目标检测和实例分割任务 。

推荐阅读
- 中国电子报智能传感器能占多大市场?,30万亿元智慧养老产业
- 长沙晚报打造“中国软件开发者产业中心城市”,长沙携手CSDN
- 数码狂人“云演唱会”会成为音乐产业新常态吗,5G+4K+VR+多视角技术融合
- 浙视频来看这份最新报告,想了解浙江人工智能产业发展全景
- 手机侃侃谈但王健林手里还有个世界第一产业,一年能赚800亿,去年亏7百亿
- 国商园区国贸电商产业园助力企业参展网上广交会
- 新龙网持续拓展5G、8K、半导体等产业边界,康佳科技创新步伐加快
- 燕赵都市报电商产业迅猛发展,肃宁:多措并举
- 雅格布别动不动就要做个平台、整合产业链
- 电商客节能产业加速度:全域节能增效化身“行业核动力”
