
文章插图
文丨郝 鑫
编丨刘雨琦
“AI target=_blank class=infotextkey>OpenAI不足为惧,开源会慢慢赶上来 。”
彼时Hugging Face创始人Clem Delangue的一句预言 , 正在迅速成为现实 。
ChatGPT横空出世7个多月后,7月19日,Llama 2宣布开源,并且可直接商用 。
如今回看 , 这一天也成为了大模型发展的分水岭 。在此之前,全世界开源的大模型不计其数,可只是停留在开发研究层面 。“可商业”短短三个字,犹如一颗重磅炸弹引爆了大模型创业圈,引得傅盛连连感叹,“有的人哭晕在厕所,而有的人在梦中也能笑醒” 。
AI大模型圈一夜之间变了天,同时也宣告着大模型加速商业化时代的到来 。
自Llama 2后,开源逐渐成为主流趋势 。以Llama架构为首,先掀起了一波以其为核心的开源,如Llama 2低成本训练版、Llama 2最强版、微调版等等 。截至发稿前 , 以“LLama 2”为关键词在国外最大的AI开源社区Hugging Face检索模型,有5341条结果;在全世界最大的开源项目托管平台Github上,也有1500个词条 。

文章插图
(图源:Hugging Face官网)

文章插图
(图源:Github官网)
之后,创业者们的目光从解构、增强Llama 2转向了构建行业专有大模型,于是又掀起了一波Llama 2+司法、Llama 2+医疗等一系列的行业开源大模型 。据不完全统计 , Llama 2开源后,国内就涌现出了十几个开源行业大模型 。
国内头部厂商和创业公司纷纷加入开源浪潮中,阿里QWEN-7B开源一个多月下载量破100万,9月25日升级了QWEN-14B;百川智能开源的Baichuan-7B、13B两款开源大模型下载量目前已经突破500万,200多家企业申请部署开源大模型 。
与此形成强烈对比的是,短时间内 , Llama 2对一些闭源的大模型厂商造成了致命性的打击 。闭源大模型多采用调取API的方式使用,数据需要先上传至模型厂商,按照调用次数收取费用;而开源则可以在本地部署,且完全免费,可商用后产生的利润也可以收归己有 。
行业内人士告诉光锥智能:“在这种情况下,基于成本的考虑,已经开始有许多企业选择放弃支付上千万元的费用,转而部署和微调Llama 2” 。
以上种种 , 共同揭开了大模型开源闭源之争 , 发展重心的转移也让人疑惑:开源大模型是否正在“杀死”闭源?
大模型开源 , 开的是什么?光锥智能梳理后发现,目前,大模型厂商和创业公司在开源和闭源的选择上,一共有三条路径:
一是完全闭源,这类代表公司国外有OpenAI的GPT-3.5、GPT-4,国内有百度的文心大模型;
二是先闭源再开源,这类代表公司有阿里云的通义千问,智谱AI开源GLM系列模型;
三是先开源再闭源,这类代表公司有百川智能的Baichuan-7B、Baichuan-13B 。
现在中国市场上能够主动开源大模型 , 且提供商业许可的企业数量还比较有限,主要公司包括了以开源为切入的百川智能、大模型厂商代表阿里、大模型初创公司代表智谱AI以及走精调Llama 2路线的虎博科技 。

文章插图
这从侧面也说明了一个问题,大模型开源并不是没有门槛,相反开源对一家企业的基础技术能力要求十分高,比如智谱AI的GLM-130大模型是去年亚洲唯一入选斯坦福大学评测榜的大模型;阿里通义千问大模型在IDC的“AI大模型技术能力评估测试”中获得了6项满分 。
如果再进一步将以上的公司分类,可以归为两类,一类是走自研大模型开源路线,一类是走Llama 2路线 。
这两条路线在国际上也十分典型 , 譬如走自研模型开源路线的Stability AI , 已经陆续开源了Stable DiffusionV1、StableLM、Stable Diffusion XL(SDXL)1.0等模型,凭一己之力撑起了文生图开源领域;另一类如中东土豪研究院就死盯住Llama 2,在其基础上继续做大参数、做强性能,Llama 2开源50天后 , 地表最强开源模型Falcon 180B横空出世, 霸榜Hugging Face 。
不过,这两条路线也不是完全泾渭分明 , Llama 2的开源也进一步促进了许多自研开源大模型的更新升级 。8月Stability AI迅速推出类ChatGPT产品——Stable Chat,背后的大语言模型Stable Beluga就是其在两代Llama的基础上精调出来 。更开放,更快迭代发展,这或许也是开源的意义 。
推荐阅读
- AI大模型下一步怎么走?百度世界五大亮点给出行业风向标
- LLM 解读大模型的token
- 生成式AI与大模型有什么区别和联系?
- 网曝吴奇隆和刘诗诗官宣离婚?四爷官方回应来了,正在走法律途径
- 8个表现说明你正在变瘦
- 开源框架中的责任链模式实践
- 揭秘大模型背后的知识储存与提取技术
- 大模型助力高效创建知识图谱
- 如何构建基于大模型的App
- 人工智能大模型布局千行百业
