一文回顾深度学习发展史上最重要经典模型( 二 )


 
2013年-通过深度强化学习玩Atari
Papers
Playing Atari with Deep Reinforcement Learning (2013)聽[7]
 
Implementations
DQN in PyTorch(https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html)
 
DQN in TensorFlow(https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial)

一文回顾深度学习发展史上最重要经典模型

文章插图
 
 
资料来源:https : //deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
在最近在图像识别和GPU方面取得突破的基础上 , DeepMind的团队成功地训练了一个网络 , 可以通过原始像素输入来玩Atari游戏 。而且 , 相同的神经网络体系结构学会了玩七种不同的游戏 , 而没有被告知任何特定于游戏的规则 , 这证明了这种方法的普遍性 。
 
强化学习与“监督学习”(例如图像分类)的不同之处在于 , Agent必须在多个时间步长(例如赢得比赛)中学习最大化的奖励总和 , 而不仅仅是预测标签 。由于Agent直接与环境交互 , 并且每个动作都会影响环境 , 因此训练数据不是独立的且分布均匀(iid) , 这使得许多机器学习模型的训练非常不稳定 。这是通过使用诸如经验重播等技术解决的[15] 。
 
尽管没有明显的算法创新可以使这项工作奏效 , 但这项研究巧妙地结合了现有技术 , 在GPU上训练的卷积神经网络和体验重播 , 以及一些数据处理技巧 , 以实现大多数人无法预期的令人印象深刻的结果 。这使人们有信心扩展“深度强化学习”技术 , 以解决更复杂的任务 , 例如Go , Dota 2 , Starcraft 2等 。
 
此后 , Atari Games [21]已成为强化学习研究的标准基准 。最初的方法仅解决了7场比赛(超过了人类的基准) , 但是在未来几年中 , 基于这些思想的进步将开始在越来越多的游戏上击败人类 。蒙特祖玛的《复仇》是一款特别的游戏 , 因需要长期规划而闻名 , 被认为是最难解决的游戏之一 。直到最近[23] [22] , 这些技术才在所有57款游戏中都超过了人类的水平 。
 
2014年-带注意力(Attention)的编码器-解码器网络
【一文回顾深度学习发展史上最重要经典模型】Papers
Sequence to Sequence Learning with Neural Networks [4]
 
Neural machine Translation by Jointly Learning to Align and Translate [3]
 
Implementations
Seq2Seq with Attention in PyTorch(https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#)
 
Seq2Seq with Attention in TensorFlow(https://www.tensorflow.org/addons/tutorials/networks_seq2seq_nmt)
一文回顾深度学习发展史上最重要经典模型

文章插图
 
来源:https : //ai.googleblog.com/2017/04/introducing-tf-seq2seq-open-source.html
深度学习最令人印象深刻的结果主要是与视觉相关的任务 , 并且是由卷积神经网络驱动的 。尽管NLP社区在使用LSTM网络[16]和编码器-解码器体系结构[4]进行语言建模和翻译方面取得了成功 , 但直到注意力机制[3]的发明才开始取得令人瞩目的成就 。
 
在处理语言时 , 每个token(可能是字符 , 单词或介于两者之间的某种事物)都会被馈送到循环网络(例如LSTM)中 , 该网络维护一种先前处理过的输入的memory 。换句话说 , 一个句子与时间序列非常相似 , 每个token都是一个时间步 。这些循环模型通常很难处理长期的依赖关系 。当他们处理序列时 , 他们很容易“忘记”较早的输入 , 因为它们的梯度需要通过许多时间步长传播 。使用梯度下降来优化这些模型非常困难 。
 
新的注意力机制有助于缓解这一问题 。它通过引入快捷方式连接为网络提供了一种在较早的时间步长自适应“回头看”的选项 。这些连接使网络可以决定在生成特定输出时哪些输入很重要 。典范的例子是翻译:生成输出词时 , 通常会映射到一个或多个特定的输入词 。
免费pdf好书推荐:
2020最新版《神经网络与深度学习》中文版PDF免费开放下载
刘知远老师7月新书-《自然语言处理表示学习》免费书分享
 


推荐阅读