200 行 Python 代码实现一个极简 GPT

译者序本文整理和翻译自 2023 年 Andrej Karpathy 的 Twitter 和一篇文章:
https://colab.research.google.com/drive/1SiF0KZJp75rUeetKOWqpsA8clmHP6jMg
Andrej Karpathy 博士 2015 毕业于斯坦福 , 之后先在 OpenAI 待了两年 , 是 OpenAI 的创始成员和研究科学家 , 2017 年加入 Tesla , 带领 Tesla Autopilot 团队 ,  2022 年离职后在 YouTube 上科普人工智能相关技术 , 2023 年重新回归 OpenAI 。
本文实际上是基于 PyTorch , 并不是完全只用基础 Python/ target=_blank class=infotextkey>Python 包实现一个 GPT 。主要目的是为了能让大家对 GPT 这样一个复杂系统的(不那么底层的)内部工作机制有个直观理解 。
本文所用的完整代码见这里 。
译者水平有限 , 不免存在遗漏或错误之处 。如有疑问 , 敬请查阅原文 。
【200 行 Python 代码实现一个极简 GPT】以下是译文 。


    推荐阅读