前瞻2024人工智能四大趋势( 二 )


除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因 。近年来 , 各国纷纷出台更严格的数据安全保护法律 , 使得客观上利用人类产生的数据训练人工智能变得更为繁琐 。这些数据中不仅可能隐含个人信息,其中的许多数据还受版权保护 。在互联网隐私与版权保护尚未形成统一标准与完善架构的当下,使用互联网数据进行训练,极易导致大量法律纠纷 。而若考虑对这些数据进行脱敏,又面临筛查识别准确率方面的挑战 。两难之下 , 合成数据就成为最惠而不费的一种选择 。
此外 , 使用人类数据进行训练,还可能导致人工智能学到有害内容 。一些诸如使用日用品制造炸弹、管制化学品的方法,另一些则包括许多人工智能本不应当出现的坏习惯,譬如像人一样在任务执行过程中偷懒、为了取悦用户而说谎、产生偏见和歧视 。若改用合成数据,使人工智能在训练中尽可能减少接触有害内容,则有望克服以上使用人类数据训练时附带的缺点 。
从以上分析中可以看出,合成数据可以说是颇具开创性的 , 有望解决此前发展人工智能与数据隐私保护不可得兼的问题 。但与此同时 , 如何确保相关的公司和机构负责任地制作合成数据,如何制作出既符合本国文化与价值观,又在规模和技术水平上足以媲美西方以英文网络资料为中心的合成数据训练集,也将成为中国面临的一个颇具挑战性的课题 。
除此之外,合成数据带来的一个重大变化是,来自人类社会的大数据或将不再是AI训练所必需 。在今后的数字世界中 , 人类数据的产生、存储和使用仍将遵循人类社会的法则和秩序,包括维护国家数据安全、保守商业数据秘密和尊重个人数据隐私,而AI训练所需的合成数据则采用另一套标准进行管理 。
趋势三:量子计算机可能率先应用于人工智能
作为电子计算机发展到今天的最前沿应用,人工智能始终存在算力不足的隐忧 。ChatGPT问世数月后,OpenAI总裁奥尔特曼曾公开表示 , 其并未鼓励更多用户注册OpenAI 。2023年11月 , OpenAI甚至宣布暂停ChatGPT Plus付费订阅新用户的注册 , 以确保现有用户拥有高质量体验 。显然 , 作为全球性能最强的AI,ChatGPT已遇到算力等方面的瓶颈 。在此背景下 , 讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案 。
首先,人工智能领域的算法,大部分属于并行计算的范畴 。举例而言,AlphaGo在下围棋的过程中,其需要同时考虑对手在不同位置落子后的应对招数,从中找到最有可能赢得棋局的下法 。这就需要计算机优化并行计算的效率来实现 。而量子计算机擅长进行并行计算 , 因为它可以同时计算和存储“0”和“1”两种状态,无需像电子计算机那样消耗额外的计算资源,譬如串联多个计算单元,或将计算任务在时间上并列 。计算任务越复杂,量子计算就越具备优势 。
其次,运行ChatGPT所需的硬件条件,同样也十分适合导入当前体积庞大的量子计算机,二者都需要安装在高度集成的计算中心里 , 由一支专业化技术团队进行管理支撑 。
什么是量子计算机?量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置 。其不仅体积庞大,而且作为核心零部件的“量子芯片”,通常需要被置于接近绝对零度(零下273.15摄氏度)的极低温中,利用在这种极低温下部分微观粒子表现出的量子特性进行信息运算和处理,且运行结果只能存在几毫秒的时间 。
既然量子计算机“又大又难维护”,为什么还要发展?原因在于 , 量子计算机蕴含巨大的算力潜能 , 以至于在一些算法上已经体现出相对于电子计算机在速度上的“绝对碾压”,即“量子优越性” 。但实现“量子优越性”只是一个起点 。目前的量子计算机只能完成一些专属于量子领域的计算任务,想要真正用好这种“量子优越性” , 先要使其量子位足够多,以实现通用计算和可编程 。而且,在实现通用计算后,量子计算机依然需要保持相对于电子计算机的优势,这被称作“量子优势” 。
2022年,来自谷歌、微软、加州理工学院等机构的研究者从原理上证明了“量子优势”在预测可观测变量、量子主成分分析以及量子机器学习中确实存在 。量子机器学习,实际上就是量子计算在人工智能领域的应用,也体现出未来量子计算与人工智能两大前沿技术合流的趋势 。


推荐阅读