“如何从0-1训练出一个ChatGPT?”( 三 )


麒麟合盛APUS邓小波
根据我们的经验,训练一个大模型,在技术路线上分为三个阶段:
在最初阶段,追求的是大参数,也就是说模型需要有足够大的容量,就像我们人类一样,要有足够多的脑细胞来承载知识 。
在第二阶段,我们发现大型训练数据集比大参数更加重要,只有大型训练数据集才能获得更好的训练效果 。
最近,我们进一步研究发现,更精准和清洁的数据、更加实时的数据,可能会取得更好的训练效果 。
【“如何从0-1训练出一个ChatGPT?”】实际上,大参数就相当于大模型的底盘,大底盘能承载更多理论知识,但最终并不能决定这个模型的优劣 。
以google为例,曾推出过一个5400亿参数的大模型PaLM,但实际上评测效果反而不如ChatGPT1750亿参数的模型,这也引发了行业内很多反思 。
大模型的成长也有成熟期,到了成熟期,当拥有了基础参数和一定的规模能力以后,大脑的聪明程度更多取决于神经网络的发展 。当参数规模扩大后,如果其吸收能力无法满足训练数据的规模增长,也无法达到理想效果 。国外的一些理论研究表明,使用20倍以上参数规模的数据去训练的时候,效果会比较好 。
通用大模型预训练阶段,采用的数据基本上是无标注的,海量原始数据可能存在不精准或互相矛盾等问题,从而影响到最终训练效果 。需要在后续的微调过程中,通过提升数据质量来进行输出对齐,使其更精准、更实时、更有效,让大模型的输出效果变得更好 。
除了选择技术路线之外,大模型训练还有四大要素——场景、数据、算法、算力 。
许多专家都会提到后面三个要素,但是在我们看来,场景一个是非常重要的要素 。
在算法层面,对于一些大型企业来说,大家的差异并不大,主要集中在框架中的神经网络层数、参数规模、token维数、学习率等许多细节方面 。
今年上半年,大家都在关注如何购买足够的算力,为未来的大规模计算做战略储备 。
我们预测,在今年下半年之后,人们会意识到最终决定应用效果的最重要因素仍是大模型本身的性能效果,而影响其性能效果的关键是训练数据 。
在大模型应用层面,将需要更多的行业内专业人员来对数据进行整理和输出,以便更好地与行业数据对齐,从而达到期望的效果 。
与此同时,大模型开发者也需要更快地与场景和行业结合,以获取更好的行业数据进行模型训练,不断迭代服务,实现数据飞轮的运转 。
因此,我们认为:
下半年场景和数据可能是大模型企业或相关产业链条中决战的关键因素 。大模型谁最终能跑得好,主要取决于谁能拥有更好的数据和更多应用场景 。
一个大模型在训练结束后,在教会大模型掌握全人类的知识和常识后,还要让它学会在不同行业中的话术,进行沟通交流,让专业人员更好地理解和适应它——我们称之为“对齐” 。
“对齐”实际上包括很多方面,既包括知识对齐,也包括法律法规和价值观对齐 。在运行过程中也可能存在一些矛盾,比如需要人员去帮助它了解哪些观点是正确的,以及如何将话术转化为让客户更能接受或喜闻乐见的内容等等 。
在行业应用中,模型本身并不创造任何价值,它只是在技术上的储备,只有在行业“对齐”并输出后,帮助行业赋能,实现产业升级,才能创造价值 。
04
设计AI大模型产品有哪些经验?
循环智能施杨乐
设计AI大模型产品需要满足4个特征 。
我们要思考的问题,即什么样的AI应用才能够给我们的企业带来超额的价值 。注意,我这里强调的是“超额的价值”,因为用老旧的技术其实也能解决一些问题,以前我们能做到8分,现在通过一个跨世纪的技术如果只提升到9分,价值就不够明显 。
因此我们需要遵循高价值AI应用的4个特征,去设计我们的AI大模型应用和产品 。
第一个特征,数据实时双边在线 。
即数据应用一定是输入、输出同时在线,它的整体价值才会达到最大 。比如抖音为什么火爆、在海外上线两个月就能突破1亿人的注册量?很重要的原因之一就是因为抖音的创作者发布视频非常方便,并且一经发布,用户马上就可以看到 。
第二个特征,数据处理消耗大量边际计算资源 。
这句话乍一听,好像有点不太有道理,为什么消耗资源越多就越有价值?因为这点指的是调动更多的资源来为它服务 。比如搜索一个问题,如果你只在自己的电脑上搜索,就只能搜索到电脑里的知识库和文档;但如果通过谷歌、百度等搜索网站,调动的就是全世界的知识来帮你解决问题,这时它消耗的边际资源虽然很大,但是回报也非常大 。


推荐阅读