互联网大厂逐浪GPT,“大模型背后是云计算的竞争”
4月底,如果你在首都国际机场出发,就会看到一个个云计算厂商的海报灯牌,走到登机口就能集齐四大云计算厂商的广告。(南方周末记者 周小铃/图)
2023年,火爆全球的ChatGPT仿佛是一个从天而降的指南针,给全球科技企业明确了一条能够通往“人工智能”这片新大陆的航线。
从输出文本、回答问题到协助办公、写诗作画,大语言模型的惊艳表现激发了全球科技企业对人工智能更大的想象空间。在中国,谁能拥有类似ChatGPT的技术,就意味着谁将获得未来人工智能时代的入场券。
IDC中国副总裁兼首席分析师武连峰曾表示,“大模型的背后蕴藏着一场人工智能落地模式的变革。”这种变革体现在,依托生成式预训练的大语言模型,人们与机器之间得以自在沟通,而机器也能“理解”人们语言中的意图。
在即将过去的4月,每隔几天就有一家公司公布其研发的大模型进展。
华为大盘古模型、阿里通义千问、腾讯混元大模型、360智脑大模型、商汤科技日日新……各家大企业纷纷秀自己人工智能的“肌肉”。美团、搜狗的前高管、元老相继宣布投身大模型创业。
北京理工大学副教授、知名汉语分词系统ICTCLAS创始人、大数据搜索与挖掘实验室主任张华平告诉南方周末记者,大多数大模型未公布最新的详细技术文档或研究论文,无法从原理结构上断定它们的差异,但大模型最终会服务于这些互联网企业的核心业务,完善他们的业务生态,这些模型的差异也会最终体现在这些具体的业务中。
一位做过多家云厂商分销商的受访者对南方周末记者说,现在还看不出来哪家的大模型比较好。
4月底,如果你在首都国际机场出发,就会看到一个个云计算厂商的海报灯牌,走到登机口就能集齐四大云计算厂商的广告,即阿里云、华为云、腾讯云和百度智能云。
据民生证券统计,目前中国已发布超过三十个大模型。投身大模型创业的出门问问创始人、CEO李志飞则预计,中国未来1-2年会看到50家以上公司做大模型。
一场关于人工智能与云计算的竞争在中国互联网企业中间悄然拉开序幕。
得算力者得AI
GPT-1向GPT-2、GPT-3迭代,参数量分别是1.17亿、15亿、1750亿,参数规模正以指数级速度增长。
越是聪明的大语言模型,参数量必然越大,这意味着每一次计算都要消耗更多的算力。换句话说,AI每回答一次问题,背后的成本都是高昂的。
国信证券在报告中测算大模型的算力需求:1个参数量为1750亿个的GPT-3模型在训练阶段需要新增1558颗A100 GPU芯片,对应价值为2337万美元,需要195台DGX A100服务器;在推理阶段需要新增70.6万颗A100 GPU芯片,对应价值为105.95亿美元,需要8.8万台DGX A100服务器。考虑一台DGX A100服务器售价19.9万美元,则在训练阶段该服务器价值量为3880.5万美元,推理阶段价值量为175.12亿美元。
试图入局的企业不得不接受一个残酷的现实:大模型竞争背后实际是云计算的竞争。有机会在大模型竞争中脱颖而出的,无疑是算力的佼佼者。
驱动大语言模型的核心要素是算力、算法和数据,算力是多家大模型厂商的核心竞争力所在。
胡润研究院首次发布《2023年胡润中国数字技术算法算力百强榜》,腾讯、阿里巴巴、中国移动、抖音、华为、美团、蚂蚁科技、比亚迪、拼多多、京东成为“中国最具价值的算法算力企业10强”。
2023年4月3日,科技产业分析机构Canalys发布调查数据,中国大陆云计算市场2022年全年销售总额为303亿美元,较2021年增长10%。中国前四大云计算厂商,阿里云、华为云、腾讯云和百度智能云合计增长9%,占市场总额的79%。
由于大语言模型对庞大算力的要求,市场必然会集中在少数几家大公司手中。事实证明,这四大云计算厂商推出的大模型无不脱胎于自身云计算的基础设施。
百度智能云相关负责人表示,“文心一言”背后的算力基础设施均由百度智算中心支持。目前,山西阳泉智算中心作为亚洲最大单体智算中心,与百度其他几座智算中心共同为文心一言提供算力支持。
百度自研“昆仑芯”二代已在文心大模型中广泛应用。昆仑芯科技战略负责人宋春晓此前曾向媒体透露,昆仑芯三代将于2024年初量产,采用XPU-R架构,通用性和效能显著提升。
为盘古大模型提供算力支持的是鹏城实验室与华为联合打造的鹏城云II。华为官网页面介绍,鹏城云脑II的底座正是搭载鲲鹏、昇腾处理器的华为Atlas 900 AI集群。它由4096颗昇腾910 AI处理器构成,总算力相当于50万台个人计算机。
先进芯片不代表先进算力,它还会受到网络带宽、存储等各方面影响,哪一方面出现瓶颈都会导致算力效率降低。
除了掌握大型算力基础设施外,腾讯、阿里等云计算厂商开始想到,通过技术提升算力效率,降低可能存在的算力损耗。
2023年4月14日,腾讯云推出“新一代HCC算力集群”,将成千上万台服务器通过网络联结起来,通过系统优化来节约训练调优的算力成本,为企业用户提供高性能、高带宽、低延迟的智算能力支撑。
比如,在GPU并行计算中,新一代HCC算力集群考虑的是庞大的参数有机地分布到多张GPU卡中,并保持不同GPU卡之间有效的通信,解决大集群场景下的算力损耗问题。
阿里云的飞天智算平台也能有效解决算力在数据迁移、同步等环节造成的损耗,适配多种类型芯片。
张华平说,当前对于大模型的优劣,并没有一套统一的评估标准。而语言模型性能的评估标准可以简单分为有用性和安全性。有用性通常可以通过benchmark以及其他公开数据进行初步评估,详细评估可以通过开放接口,在内测期间收集用户反馈等方式进行,安全性则更多地依赖于严格的人工评估。
华东政法大学教授、政治研究院院长高奇琦向南方周末记者指出,大模型对算力的消耗程度可以列入大模型评估的指标,需研究如何在最大发挥算力的同时节约能耗。
两条腿走路
2023年4月11日,身兼阿里巴巴集团董事会主席、CEO和阿里云智能总裁两职的张勇,在阿里云峰会现场一语道破通义千问的发展路径。
“阿里巴巴决定未来将所有产品接入‘通义千问’,进行全面改造。”与此同时,“阿里云可以帮助更多企业用上大模型,基于‘通义千问’拥有具备自己行业能力的‘专属大模型’”。
这不光是阿里云一家的思路。
腾讯总裁刘炽平在2022年财报电话会议上表示,腾讯对AI一直有所布局,腾讯的核心观点是AI及大模型对于腾讯整个业务来说是一个增长的扩大器。例如在游戏业务部分可以通过AIGC(人工智能生成内容)提高创作效率。他也坦诚地说,目前还很难通过AIGC直接创造一个游戏。
也就是说,腾讯在投入大量资源构建基础模型,未来会将其应用到腾讯的每一条业务线中,基础模型也能够帮腾讯展开新的业务。腾讯在C端用户上的优势会继续带到人机互动领域。
当下,腾讯在广告、游戏、短视频和云业务上已开始利用AI技术提高整体效率,推动业务发展,未来可以通过大模型与AIGC来创造内容。
在各家相继推出大模型之后,据36氪报道,字节跳动将在语言和图像两种模态发力。
对比中国老牌的云计算厂商,字节跳动不缺少云基础设施的加持。2021年,字节旗下的企业技术服务平台火山引擎正式进军基础云市场,先后发布自研DPU等系列云产品,推出支持万卡级大模型的新版机器学习平台。同时,火山引擎与字节跳动国内业务并池,其他业务有空闲计算资源可以调给火山引擎的客户。
尽管字节跳动仍未正式官宣其大模型团队,但字节跳动旗下已有多个产品得到AIGC的加持。
如抖音上线“AI漫画”,只要输入一张照片就会根据照片生成一张漫画,这款特效在2022年火遍抖音,截至目前,该特效已有超过3000万用户。剪映提供AI生成视频功能,可以根据文字描述智能匹配视频素材。
2023年4月11日,字节跳动飞书发布视频预告专属智能助手“My AI”,它的作用在于自动汇总会议纪要、创建报告、优化和续写文字内容,还可以通过对话形式,帮助用户自动创建日程、搜索公司内部知识库等功能。飞书尚未公布“My AI”具体上线的时间表。
除了服务自身企业业态,华为、百度、阿里、腾讯还将目光对准更为广阔的B端行业市场。
2023年4月8日,在人工智能大模型技术高峰论坛上,华为云人工智能领域首席科学家田奇表示,人工智能发展已从局部探索走向千行百业,行业应用是人工智能新的爆发点。
比如国网重庆永川供电公司是中国早期应用无人机电力智能巡检技术的电网企业。华为盘古大模型的一个模型就可以适配上百种缺陷,替代原有的二十多个小模型。
截至目前,华为云已经在全国十多个行业超过600个项目进行了人工智能的实践,帮助城市、交通、医疗、钢铁、纺织、能源、金融等行业智能升级。
不再重复“造轮子”
眼下,国内四大云计算厂商在大模型技术底座的认识上已趋于接近。
比如,阿里云提出,模型即服务(MaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)三层架构。百度智能云则提出“芯片层、框架层、模型层和应用层”的“四层全栈能力”。通义千问和文心一言都属于架构中的“模型”。
百度创始人、董事长李彦宏在2023年3月的文心一言发布会上做出过一个论断:大模型浪潮将改变传统云计算服务看算力、存储的旧习惯,进入到看框架好不好、模型好不好,以及模型、框架、芯片、应用之间协同的新游戏规则。
华为云人工智能领域首席科学家田奇在2021年研发大模型时,就注意到AI应用领域存在大量碎片化的因素,需要各家企业自行开发基础部件。由于大模型投入成本高昂,AI应用层面的工业化程度较低,这在当时被业内人士视作“行业天堑”。
预训练大模型正好能够解决AI开发前置工作的标准化问题,将不同开发者的模型需求公约化,形成一个通用型的大模型。盘古大模型在预训练阶段就吃进海量的通用知识,能够适用于大量的行业场景。
只要加上通过行业数据的小样本调优,模型泛化能力和对新样本的适应能力将变得更高。换言之,各行各业的开发者不必再“重复造轮子”,只需在云上找到所需要的模型,这能降低中小企业的AI开发成本。
阿里云首席CTO周靖人也表示,“通义千问”是通用大模型,无法针对企业的具体业务问题进行优化或定制。但开放“通义千问”的能力,企业可以在“通义千问”的基础之上,结合自己的特殊需求及行业知识,训练专属模型。这样,每个企业都可以有自己的智能客服、智能语音助手、文案助手、AI设计师、自动驾驶模型等。
百度集团执行副总裁、百度智能云事业群总裁沈抖在2022年云智峰会上说道,由于百度AI大底座的底层技术通用化和模块化,中小企业不再需要把大量时间和成本花在构建基础设施上,而可以通过AI大底座让芯片、大模型、深度学习框架等高门槛的技术调用做到“像水电能一样供用户按需取用”。
百度AI中台总监忻舟也表示,百度AI大底座将面向企业提供一系列AI研发运维工具。企业在接入文心一言后,可低成本、便捷地完成与业务场景的适配与二次开发,通过AI工程化能力帮助产业突破AI落地的“最后一公里”。
2023年4月26日,周靖人在阿里云合作伙伴大会上宣布阿里云史上最大规模降价,核心产品价格全线下调15%至50%,存储产品最高降幅达50%。
在合作伙伴大会现场,张勇再次强调阿里云要做的一件事:让算力更普惠。
南方周末记者 周小铃
南方周末实习生 刘晓桐
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。