(原文转载于《中国社会科学报》2023年3月7日第A07版)
◇沈威
2018年以前,在人工语言处理领域没有什么里程碑式的产品,甚至可以说没有什么像样的产品。但2018年,BERT(Bidirectional Encoder Representation from Transformers)和GPT(Generative Pre-trained Transformer)两个语言模型问世,且有一争高下之势,语言模型开始走向人类科技的舞台中央。2022年以来,各种大型语言模型更如雨后春笋般出现,平均每4天就有一个大型语言模型问世。比如,LaMDA、Gopher、PaLM、MT-NLG、Jurassic-1等。自2022年11月OpenAI发布语言模型ChatGPT(即GPT-3.5)以来,ChatGPT持续走红,成为近期的热点话题,ChatGPT也成了现象级产品。各种类ChatGPT产品也开始出现。本文便对ChatGPT的形成机理与问题应对进行一定探索。
ChatGPT是什么
要弄清ChatGPT的来龙去脉,有必要先弄清GPT的身份。GPT是一种语言模型,能够通过深度机器学习生成人类可以理解的自然语言。它由OpenAI公司训练与开发,并被微软公司在2020年9月取得了独家授权。2018年GPT诞生之后的初代版本也就是GTP-1(约5GB训练文本,1.17亿参数量)还平平无奇,即便是发展到第二代GPT-2(约40GB训练文本,15亿参数量)也没有给人们留下太多印象,因为确实也没有什么特别过人之处。不过,从第三代GTP-3(约45TB训练文本,1750亿参数量)开始,GPT-3就显示出了超强的能力,开始在自然语言处理领域大放异彩。
自2022年5月开始,GPT-3以几何级数量增加知识储备,每天新增的词汇量高达450亿词。相对于2021年,GPT-3每天新增的词汇量整整增加了10倍,其文本生成能力也获得大幅增长。人们只需要给出简单的提示,GPT-3就能自动生成完整的、通顺流畅的长文章。GPT-3也因此在NLP领域崭露头角。不过,GPT-3也有不少缺点。作为预训练模型的GPT-3是通过海量数据(约45TB的训练文本)在超大参数量级(1750亿参数量)模型上训练出来的,而这些样本中各种观点参差不齐,很大程度上会在某些问题上带有偏见性。
为优化GPT-3的不足,OpenAI对其进行了改进,加入了指示学习(Instruct Learning)、提示学习(Prompt Learning)、微调(Fine-tune)以及人工反馈的强化学习(Reinforcement Learning from Human Feedback),使ChatGPT进入GPT-3.5时代。有了以上四项关键技术的加持,ChatGPT相对于GPT-3不仅参数量大大减少,且在聊天领域的文本生成能力大大增加。ChatGPT对GPT-3的优化可以分为3个步骤。1.利用人工标注的数据微调GPT-3。2.训练一个符合人类评价方式的评价模型Reward Model,对给定的上文与自动生成的回复打分并对分数按从高到低排序。3.利用训练好的Reward Model指导GPT-3进一步进行微调,使模型生成更加符合人类习惯的聊天文本。
在询问ChatGPT“你有什么功能”时,它回答道:“作为一个AI助手,我可以提供以下一些功能:1.问答:我可以回答各种问题,例如科学、历史、文化、语言、计算机等方面的问题。2.翻译:我可以将文本或语音翻译成多种语言,例如英语、法语、中文等。3.对话:我可以进行智能对话,回答各种关于生活、工作、学习等方面的问题。4.生成:我可以生成文本、图片、音频和视频等多种类型的内容,例如文章、摘要、图像和音乐等。5.学习:我可以根据用户的反馈和数据进行学习和优化,提高自己的表现和性能。6.娱乐:我可以提供一些娱乐功能,例如笑话、游戏、音乐等。总之,我是一款功能多样、灵活性强的AI助手,可以帮助用户解决各种问题和需求。”其实,ChatGPT拥有的问答、翻译、对话、生成、学习和娱乐这六个技能并不在一个层面。从逻辑关联上看,问答、翻译、对话、学习和娱乐这五个技能都是“生成”的子类。从表现形式上来讲,翻译、对话、生成、学习和娱乐都是“问答”的子类,即根据用户的提示,机器给出回答。
ChatGPT的利弊
ChatGPT在推出两个多月时,月活用户便已突破1亿。这从侧面反映了ChatGPT在对话生成、问答系统、文本生成、文本翻译等方面的强大能力。ChatGPT具有如下优势。1.知识面广泛。相对于人类而言,ChatGPT的知识面更广泛。人类个体的时间、精力包括脑力都是非常有限的;ChatGPT则是利用深度机器学习方法对海量数据进行训练,并通过人工反馈的强化学习得到的语言模型,其知识面的广度要远多过人类个体。2.较强的自然语言生成能力。ChatGPT有较强的自然语言生成能力,这意味着它可以一定程度地理解人类语言,包括各种方言和口音,能够回答各种形式的问题。尤其是当文本中出现语法、拼写等错误时,它可以自动进行纠正,确保用户能够得到准确的答案。3.具有一定创造性。由于ChatGPT可以记住之前的交互内容,并接受人工反馈的强化学习,这意味着它能较好地学习人类的偏好和习惯,并根据这些信息提供更好的答案。所以,ChatGPT在创作或回答问题时生成的文本内容(如诗歌、小说、新闻、对话等)很像人类的风格,也使得ChatGPT在创造性上优于以往的文本生成模型。4.应用领域广泛,前景巨大。ChatGPT可以应用于多种场景。比如,在客户服务、自然语言生成、语音助手、问答系统等领域,ChatGPT都能胜任,并能够较为出色地完成一些基础任务。ChatGPT的更多使用场景也在不断拓展,发展前景广阔。
不过,ChatGPT并非完美无缺,目前尚无法跨越以下壁垒。1.缺乏真实情感和思想。由于ChatGPT在训练语料里很难获取到人与人之间的表情、姿态以及其他语境下的多模态信息,所以它虽然具有较强的生成能力,生成的文本合乎语法,四平八稳,但是却很难创造出能与人们共情的内容。2.容易形成带有偏见的观点。由于喂给ChatGPT的数据都是历史数据,它学习这些历史数据后很可能会根据所学内容形成偏见。尤其是ChatGPT接受了人工反馈的强化学习,就难免会使很多结论带有主观性,对某些问题易形成偏见。3.容易一本正经胡说八道。由于ChatGPT在生成答案时,往往是通过词语和词语之间的关联关系生成文本,但它却不能判别生成文本内容的真伪,所以很可能会传播与事实不符的情况。4.容易被欺骗从而给出违背伦理道德的建议。ChatGPT本来已由开发者设置好道德和伦理标准,用户询问的事情如果违反道德和伦理标准,ChatGPT是有权拒绝回答的。但由于ChatGPT的反馈结果极易受到prompt的影响,同样一个问题,给出的prompt不同,生成的结果就不一样。用户能够通过伪装、欺骗,轻易使ChatGPT放弃掉开发者为之设定好的道德和伦理标准。
应对ChatGPT带来的问题
ChatGPT的出现会对很多行业带来冲击,其自身利弊及产生的科技伦理等诸多问题,需要我们深入思考并给出解决之道。1.ChatGPT的定位。在人类的工作和学习中,ChatGPT只能是从属者,人始终是第一位的。虽然ChatGPT的知识面很广,也具有一定的创造性,但这种创造性是有限的。离开了人的创造性,ChatGPT很难有所作为。由于ChatGPT还是基于prompt驱动的,要解决同样一个问题,不同的prompt产生的结果会天差地别,prompt的提出本身也是需要创造性的。这也催生了大量专门提供prompt的从业者。2.AI文本生成的检测亟须解决。ChatGPT的文本生成带给人们的便利显而易见,在避免人类进行重复性工作的同时,也带来了诸多现实问题。如果大部分人都使用人工智能生成的文本,将是非常可怕和可悲的事情,这会弱化人类思维能力。缺少思考、缺乏创新,将会导致社会的倒退。如何有效、高效地判定某个文本是否为人工智能自动生成,或具有重要意义且迫在眉睫。3.相关法律法规的建立健全。由于训练ChatGPT的原始数据在分布上不一定合理,而且OpenAI也只是雇用了40个数据标记员进行人工反馈的强化学习和修正,ChatGPT自动生成的文本不可避免地会有偏见甚至是违法的内容,在很多领域的使用理应受到限制。相关法律法规亟待健全,任何科技产品都应在法律框架内合法使用。
可以说,ChatGPT的出现不仅颠覆了人们对传统聊天机器人的认知,也会带来许多行业的革新。随着ChatGPT的流行,不少类ChatGPT的产品也将不断出现,无论是Bard,还是ERNIE Bot,抑或其他类似产品,都需要进行人工反馈的强化学习,会生成带有偏见的观点。对此,我们应在监管手段和方法上做好顶层设计,提前布局。
(作者系华中师范大学语言与语言教育研究中心副教授)