大语言模型的未来:母体、应用还是分布式?

大语言模型(Large Language Models, LLMs)是采用神经网络进行无监督学习的语言模型。通过海量的数据,LLMs可以学习语言的统计规律和语义知识,并生成与输入语境相关联的自然语言。LLMs代表了基于深度学习的最新进展,在自然语言处理领域产生了里程碑般的影响。如BERT(Bidirectional Encoder Representations from Transformers)和GPT-3(Generative Pre-trained Transformer 3)就是两个典型的LLM实例。BERT是一个语言表示学习模型,可广泛应用于语言理解任务,如问答系统、文本分类与推荐等。而GPT-3是一个语言生成模型,可以根据提示语言生成连贯的文章、对话、故事等长文本。这两个模型均已在各自的方向上显示出超越人类的语言能力, 现在火遍全球的ChatGPT就是一种语言生成模型。(以上信息来源于百科+AI生成)
2023年可以说是全球大语言模型发展的元年,未来从基础应用场景上看,大语言模型(LLM)发展会有那些模式呢?尝试不成熟的胡想一通。未来大语言模型(LLM)发展的可能有三种模式。
第一种,母体模式。几个超大模型作为母体模型,利用自己超强的算力、算法能力和海量的可持续的数据积累,形成母体模型。围绕的母体模型,形成AI应用的生态。这种模式已初步形成,像ChatGPT已经开始构建相关应用生态。后续其他大模型的发展,必然会将生态应用一并考虑进去。
第二种,应用模式。随着大语言模型不断优化与发展,以及硬件设备算力成本的持续下降,使大语言模型的训练和部署对硬件需求不断减少。未来或许每个移动终端都可以运行自己的大语言模型。但是,每个人都拥有一个大模型似乎造成资源浪费,且模型个性化并不是一个容易解决的问题。
第三种,分布式模式。通过协议和网络连接,将大语言模型分布式部署。每个节点利用自己的数据进行本地训练,然后共享训练过程与结果。最终形成一个网络化大模型。这种模式理想但难度较大,一方面技术复杂,成本高;另一方面利益归属难以确定,管理难度大。
从当前发展来看,第一种母体模式可能性最大。第三种分布式模式虽然理想,但实践难度高,并且不符合资本与管理的诉求。第二种应用模式需要语言模型与硬件同步发展,但每个人拥有一个大模型的必要性值得商榷。
无论采取何种模式,大语言模型技术的发展已成必然。未来有一天,当我们再次购买移动终端设备的时候,里面默认安装的可能就不是一个操作系统了,还会有一个底层的AI系统,或者是具有AI能力的操作系统了。而移动终端上不再是一个个APP,而是一个个MAPP了。

发表回复