最近大模型为什么走热,先要从OpenAI讲起。OpenAI是由来自硅谷、西雅图等地的诸多科技大亨联合建立的人工智能非营利组织,这些大佬们给OpenAI的首期投资是10亿美金,而这个组织的发起人之一,是“钢铁侠”马斯克。2015年,马斯克与其他硅谷、西雅图科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用,OpenAI的目标,是要制造“通用”机器人,或者称之为“通用人工智能”。2019年7月,微软也给OpenAI投资了10亿美元。次年6月,OpenAI研发出GPT-3语言模型,而且在三个月后又将这个GPT-3模型独家授权给微软。
最近微软CEO萨提亚对微软首席技术官凯文谈及未来对微软研究院的期待,萨提亚给出了三个期望,其中之一便是AI“大模型”。
那么,这个GPT-3又有什么魔力呢?作为最先进的语言模型,GPT-3包括1750亿个参数(而其前身GPT-2的参数为15亿),从而击败了之前保持记录的图灵NLG模型(170亿)。参数多有什么意义?浪潮人工智能研究院首席研究员吴韶华回应记者说:“其关键原因在于OpenAI的GPT-3凸显了一种小样本学习以及泛化能力,而且两个层面的能力都非常优秀。”
吴韶华进一步解释,泛化能力是指模型训练一次,形成的大模型就可用于各种各样的任务,哪怕这些任务之间没有任何关联。而要理解小样本学习,需要先了解传统的模型训练范式。传统范式是首先要预训练得到一个基础模型,基础模型做完之后,需要针对具体任务再做数据级微调,这意味着如果一个企业有各种各样的任务,就得有各种繁多的模型。“大模型最重要的优势,是进入大规模可复制的产业落地阶段,只需小样本的学习,也能达到比以前更好的效果,而且模型参数规模越大,这种优势越明显,可大大降低各类用户的开发使用成本。”吴韶华说。
模型的参数规模越大,优势越明显。正因为如此,头部AI企业正在不断地追逐大模型之“大”,不久前,微软与英伟达宣布双方合作的语言模型MT-NLG的参数为5300亿。
中国工程院院士王恩东表示:“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力,是人工智能研究一直探索的方向。目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。”随着巨量模型的兴起,巨量化已成为未来人工智能发展非常重要的一个趋势。而巨量化的一个核心特征就是模型参数多、训练数据量大。
人工智能从专用到通用,模型做精更好?
目前,美国在大模型领域已经取得较快进展,代表性的进展有谷歌的Bert,OpenAI的GPT-3等。正当模型参数朝着越来越无穷大的方向迈进之时,OpenAI的CEO宣布其大模型的下一个GPT-4,其参数不会比GPT-3的更多,而是更少,因为GPT-4将使用与之前GPT模型不同的方法,包括数据算法和微调,这其中的重点是在较小的模型中获得最大的收益。
本站文章版权归原作者所有 内容为作者个人观点 本站只提供参考并不构成任何投资及应用建议。
本文转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容