玩币族移动版

玩币族首页 > 新闻观点 >

破解国产大模型难题:避免“无源之水”,最后一公里需连接算法与芯片

来源:澎湃新闻

作者:实习生 胡馨儿 澎湃新闻记者 邵文

图片来源:由无界 AI生成

·中国工程院院士戴琼海表示:“我国应从政策、机制和投入上深化人工智能的人才培养和基础研究,强化原始创新,避免陷入‘无源之水’的困境。”

·清华大学电子工程系长聘教授汪玉指出:“上海本地已经有许多芯片企业,上海也有很多算法,怎样做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。”

7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,多位通用人工智能领域的专家聚焦大模型,分别从基础创新、应用技术、未来前景等层面深度探讨人工智能。

“我国应从政策、机制和投入上深化人工智能的人才培养和基础研究,强化原始创新,避免陷入‘无源之水’的困境。”国务院参事、中国工程院院士戴琼海在主旨演讲中强调。

清华大学电子工程系长聘教授、系主任汪玉则从落地应用角度谈到,目前大模型垂直领域部署难度大,国内大模型落地面临三大挑战:领域部署成本高、模型算力缺口大和国产芯片替代难。“在大模型落地的最后一公里,我们需要将算法与芯片连接起来。” 汪玉说。

“脑智能是未来新的方向”

戴琼海认为,在大模型“0到1”的创新中,国内在基础研究领域的颠覆性成果弱。“从智能发展产业来看,我们是既乐观又不乐观。”在他看来,中国大部分人工智能人才集中于应用层,因此应用场景和技术层的发挥空间特别大。但中国在基础层人才方面明显处于弱势,原始创新不足。

戴琼海表示,人工智能创新发展需要三大支柱,即算法、数据、算力。算法决定智能水平,数据决定智能范围,算力决定智能效率。在算法层面,大模型预计5年左右成为人工智能应用中的关键基础性平台。

戴琼海同时指出,脑智能是未来新的方向。融合脑与认知的人工智能新算法是行业布局的前沿,将引领新一代智能。他在论坛上建议,政府应鼓励企业主导大模型建设,探索生物机制和机器特色相结合,进一步创造人工智能新范式,推动基础研究和应用拓展并举。他预计,以认知智能为核心的人工智能将在十年以后开始步入应用。

此外,戴琼海认为,需要警惕大模型应用的安全问题。大模型尚不能对输出进行可信性的验证,例如生成欺骗性内容。“这意味着大模型的应用一旦出现问题,可不是现在计算机网络病毒那么简单,杀杀毒就好了,这将会带来颠覆性的影响。因此大模型进行应用时,应将安全性和可信性讨论清楚。”

国内大模型应着力解决四个痛点需求

汪玉在论坛中表示,“上海非常关注人工智能和芯片,但从另外一个角度看,我们现在最先进的模型以及比较重要的算力,其实都受到了一定的限制。我们的算力应该往哪个方向去走,国产算力怎么样能更好地弥补起来,这样的空间如何支撑国家在大模型训练和推理等方面的发展,这些问题已经变得极其重要。”

汪玉还提到,目前在国外,大算力芯片只有英伟达和AMD这两个公司可以选。英伟达占据主导市场,并且其软件生态比较好。“所以国外各种各样的模型,例如OpenAI、微软、谷歌,都在大批量地采购英伟达的芯片,然后在英伟达的软件框架之上去进行开发。国外的生态是很简单的,企业做好算法这一领域,部署方面有英伟达的软件体系来支撑。”

“但中国目前大算力芯片的发展还处于起步阶段。”汪玉认为,“上海本地已经有许多芯片企业,例如天数智芯、燧原科技、寒武纪、壁仞科技等。上海也有很多算法,怎样做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。”

汪玉同时强调,目前大模型垂直领域部署难度大,国内大模型落地面临三大挑战:领域部署成本高、模型算力缺口大和国产芯片替代难。

“与过去AI 1.0时代的一个模型针对一个特定任务不同,当今AI 2.0时代是一个模型解决多个任务,应用层、算法层、系统层需要协同优化。”汪玉表示,在大模型落地的最后一公里,国内大模型应着力解决四个痛点需求。

“我们首先需要处理长文本的问题,即用得好。”汪玉谈到,目前算法的趋势是将大模型支持的文本长度不断增大,但长文本也将带来负载激增的问题,Transformer(谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)架构的负载会随着输入变长而急剧增加。因此调整长文本是一个极其重要的需求。

大模型的另一个需求是性价比的提升。“如果谷歌在搜索引擎中应用大模型,这将增加360亿美元的成本,而利润可能损失65%。”汪玉表示,若公司能够做到降低一次点击的成本,整体的利润损失可能会降低。按此方向发展,每个人都有望用得起大模型。

此外,大模型需要赋能多种垂直领域,对于各行各业而言,目前并没有很多大模型拥有大量知识。尤其在医疗、金融等领域,语料数据获取代价昂贵,并且非常稀少。“如果能够加上通用基座大模型,并且进行微调,各行各业的基础性能有望进一步提升。”但汪玉也指出,如果在垂直领域发展,通用大模型一定要进行微调,而模型越大,微调的代价也随之大幅增高。因此,如何设计高效的微调算法是一个需要探讨的话题。

与此同时,大模型也带来了一站式部署的新需求。在软硬件的优化中,若将算子优化、编译调优、硬件部署进行分层部署,每日一共需要100个人力,而对于一站式自动化部署,每日只需要10个人力。汪玉指出,一站式部署能够优化人力成本,进一步增大编译优化空间规模,有望推动整个产业链的发展。

知识: AI 大模型