另外,在操作系统的任务调度方面,这也是影响流畅体验的最基本要素,相比公平调度,动态优先级调度会很大程度降低能耗 。动态优先级调度就类似于一个智能交通系统,可以根据道路状况和交通流量,动态调整交通信号灯亮起状态,如当某个方向的车流增加时,该方向的信号灯就提前变绿,就会减少拥堵和延迟 。
不过,要想让大模型部署到手机上,还能运转起来,光是手机操作系统升级改进还远远不够 。
随着大模型预测越来越准确,网络越来越深,神经网络消耗的内存容量已成为核心问题 。同时,还涉及内存带宽的问题,网路运行时,内存、CPU和电池都会飞速消耗,这绝对是现在的手机难以承受之重 。
因此,在部署到手机之前,就必须对大模型进行压缩,以降低对推理算力的需求 。但是,一定要确保原有性能和精度基本不变 。
量化就是一种常见且重要的压缩操作,可以减少模型占用的内存空间,提高推理性能 。本质上就是将浮点运算模型转化为整数运算模型,因为整数运算比浮点运算精度更高,运算速度也更快 。
当前,量化技术也已经在加速突破 。服务器上训练的模型一般采用32位浮点运算(FP32),在手机端,高通已经将FP32模型量化压缩到INT4模型,实现64内存和计算能效提升 。高通的实现数据表明,在借助高通的量化感知训练后,不少AIGC模型可以量化至INT4模型,与INT8相比,性能提升约90%,能效提升大约60% 。
大模型压缩技术,无疑是AI巨头制胜移动终端战场的关键因素 。这也在一定程度上,解释了英伟达在今年2月为什么“悄悄”收购了掌握压缩大模型技术的人工智能初创公司OmniML 。
大模型倒逼终端硬件升级
“本年度我们将能够支持参数达100亿的生成式AI模型在手机上运行 。”高通产品管理高级副总裁兼AI负责人Ziad Asghar近期则对外表示,100亿-150亿参数的模型可以覆盖绝大多数AIGC用例 。如果终端已经可以支持这一参数级别,运算可全部在终端上进行,手机会成为真正的个人助理 。
但是,当前新一代旗舰版手机芯片也就可以承载运行10亿参数级大模型,高通在今年6月计算机视觉学术顶会 CVPR 上,成功演示的跑在Android/ target=_blank class=infotextkey>安卓系统上的大模型,也不过15亿参数 。
【把大模型装进手机,分几步?】参数跃升几乎十倍,奔赴移动终端的大模型已踩下“油门”,那手机也就不得不加速升级才能应对 。
手机硬件亟需在AI加速器和内存进行革新 。
首先,更大参数的大模型,需要更大的内存和存储空间来存储模型参数和中间结果 。这就要求移动终端内存芯片容量,以及内存接口带宽都进行升级 。
其次,更大的参数势必需要更强大的计算和推理能力,处理输入数据和输出结果 。
虽然,目前手机芯片上的AI加速器(例如各种NPU IP)几乎已经是标配,但设计基本上是针对上一代卷积神经网络设计,并不完全针对大模型 。
为了适配大模型,AI加速器必须能有更大的内存访问带宽,并减少内存访问延迟 。这就需要AI加速器的接口上做出一些改变(例如分配更多的pin给内存接口),同时也需要片上数据互联做出相应的改变,来满足AI加速器访存的需求 。
高通能喊出“年内100亿参数跑手机”的重要原因之一,就是其手握搭载了高通史上最快速、最先进的AI引擎的第二代骁龙8处理器,相比第一代骁龙8处理器,AI性能提升了4.35倍,能效提升60% 。
当然,超大规模参数大模型的训练和推理,即便在云端也亟待突破五堵墙:内存墙+算力墙+通信墙+调优墙+部署墙,手机更得一层一层去突破 。
不过,从“智能”到“人工智能”,对于手机来说,机遇大于挑战 。
“创新周期对电子消费品的影响更为重要,甚至可以带领一个产业走出经济周期的影响 。”荣耀终端CEO赵明判断,当前智能手机行业就处在一个AI、5G+开启的新一轮创新周期中 。
推荐阅读
- 抄手怎么保鲜 抄手保鲜技巧
- 已婚女人梦见掉一把头发什么意思 已婚女人梦见掉头发
- 什么叫机械运动 物理学把什么叫机械运动
- 国产AI大模型哪家强?十大维度横评四款主流大模型!
- 网易胡志鹏:从游戏到产业,AI大模型价值正显现
- 清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
- 中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?
- AI大模型下的人才竞争多激烈
- 华为HarmonyOS 4内置AI大模型,余承东:鸿蒙生态已过万重山
- 大模型上车,AI的又一个“狼来了”?
