工程与产品的胜利,深度剖析ChatGPT和聪明地设计基础架构( 二 )


工程与产品的胜利,深度剖析ChatGPT和聪明地设计基础架构

文章插图
 
(我其实觉得,如果有一个像 wx 聊天机器人这样的方式,也许可以进一步做病毒营销,但是 OpenAI 并没有相关的产品可以相互引流,就更显得产品力的强大 。当然聊天机器人是不是会有其他各种内容限制,这是另一个话题了 。)
工程和产品体验会给 ChatGPT 的下一代带来更大优势 。试想,一亿人每个月在给 ChatGPT 生成对话数据训练下一代模型,这是现在任何一个研究院,包括一线大厂,所无法企及的 。
ChatGPT带来更多的机会
这个话题稍微有一点被说烂了我就不多说了 。我从浙江一个高中长大,30年前,学校采用的油印机是要用“蜡纸”的:老师们的一大技能就是在蜡纸上,用尖头的铁笔刻出手写的试卷来,然后卷到一个油印机的滚筒上面,油印机印的页数多了,蜡纸也就旧了,一张蜡纸能印个几百张,怎么刻字刻得足够深而不破,是核心技能 。后来90年代末有了打印机复印机,老师们不再需要手工刻试卷,我听到过他们怀念当年刻字的经历,但没有听到谁想回到过去 。有了更好的工具,为什么要回去呢?
工程与产品的胜利,深度剖析ChatGPT和聪明地设计基础架构

文章插图
 
从技术的角度讲,ChatGPT 依然是一种基于统计的方式(虽然神经网络不像当年的概率图模型、统计机器学习那么有明显的“统计”的色彩)来实现的机器学习算法 。所以,它的能力也和场景的“常见程度”有关:只要是简单重复的人类劳动,它都能做得很好 。从技术的角度举例子,冒泡排序写过一百遍,写出来很简单,AI 一问就会 。让它写个更牛的自己出来... 抱歉,暂时还不行 。
然后我们发现它写各种企业“战略”写得很不错 。这是不是从一个角度体现出来,部分“战略”其实就是统计意义上的简单重复呢?之前有人开玩笑,说 xx 厂和 yy 厂和 zz 厂的 ppt 大图长得一模一样,只要把颜色调成红黄蓝当中的一种 。这样的工作,只要有训练数据,当然 ChatGPT 能做得非常好 。说笑归说笑,我觉得 ChatGPT 从一个大数据的角度让我们重新审视了“什么是创新” - 很多我们认为是创新的东西,也许并不是 。
但是 ChatGPT 给真正的创新带来了更多的机会 。一个广为人知的故事是,达芬奇在创作《岩间圣母》的时候,很多背景部分不是他画的 - 这些简单重复的地方就让他的助手画了 。今天 ChatGPT 就是助手,当内容创作者能够花更少的时间做重复劳动的时候,创新会变得更多 - 这是历史上多次证明的 。
聪明地设计 Infra
硅谷著名风投 A16Z 在最近一篇对于 AIGC 的文章当中提到那么一句话:“目前看基础设施提供商是这个市场当中最大的赢家” 。
不过要做这个赢家,就要更加聪明地设计 infra 才行 。AI 计算不同于传统上所说的“云计算”,而更加接近于我们所说的“高性能计算” HPC - 当你听见这个词语感觉我老学究的时候,且慢,听我道来 。
云计算很多时候在关注资源的池化和虚拟化:
怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;
如何在这种虚拟环境下把利用率做上去,或者说超卖;
怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足 。
但是 AI 的计算不一样 。对于 AI 而言,尤其是今天 AI 的训练:
并不要求特别强的虚拟化 。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求 。
需要很高性能和带宽的存储和网络 。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽 。
对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题 。
没有过度复杂的调度和机器级别的容灾 。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复 。
也就是说,对于 AI 的用户而言而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的 。


推荐阅读