• 理解——交流的基础(俞士汶)(2013-06-04 22:26:40)
  • 理解——交流的基础 俞士汶 许菊芳先生: 你提的这些问题都很有专业水平。我觉得很难回答,水平不够。不过,我愿意尝试着同你讨论,也算是参加一次考试吧。不知道能不能考及格。 另外,我想把内容限制为高级科普,既避开一些技术细节,又免得去查证一些具体的数据、专名或年代。 致以 敬礼! 俞士汶 1999年8月2日 你提出的几个问题主要是关于一般的自然语言处理的,有时也特别针对中文。我想,首先区分一下中文信息处理的层次对我们下面讨论的定位有好处。我以为中文信息处理大致可以划分为两个层次。一个是文字层次,即汉字信息处理,如汉字的编码与输入,汉字字形的存储与输出、排版等;另一个则是语言层次,如机器翻译、文本分类、自动文摘等。当然,分界线不是绝对清晰的。以中文键盘输入为例,开始以字(词)为单位,基本技术是编码,属于汉字信息处理范畴。当发展到以语句为单位时,要融入一些句法分析或语义分析的技术,就进入了汉语信息处理的境界。今天我们将集中讨论汉语信息处理问题。 1.“让计算机能和人类自由交流”一直是人们的梦想,语言是描述人类思维的工具之一,因此将人类语言和计算机联系起来,应当是实现这一梦想的重要一步。您多年从事计算机自然语言处理的基础研究,能否请您谈谈目前这方面的进展情况? [讨论] 正如你所说,“让计算机能和人类自由交流一直是人们的梦想”。要实现这一梦想,就要让计算机能理解人类的语言,因为语言是人们彼此交流信息的最主要、最方便、最准确的工具。自然语言理解一直是计算机科学中的一个引人入胜的、富有挑战性的课题。由于自然语言十分复杂,人是如何理解语言的,也还是个谜,因此给“理解”下一个定义是极其困难的。从信息处理的角度看, 语言既然是信息的载体,如果计算机实现了 (1) 机器翻译或 (2) 自动文摘或 (3) 人机会话等语言信息处理功能, 则认为计算机具备了理解自然语言的能力。这是从结果而不是从过程来判断的,显然没有触及“理解”的本质。为了实现这些功能,计算机除了需要具备会分析输入给计算机的文章或话语的能力之外, 还需要具备能生成语句与文章的本领, 因此,在计算机科学中,经常使用“自然语言处理”或“语言信息处理”这类术语来概括这些研究内容。“计算语言学” 则对这些技术提供理论支持。 语言信息处理(更具体地说,就是机器翻译)是数字计算机在非数值领域的最早应用。然而,无论同计算机科学技术本身一日千里的发展相比,还是同计算机在各个领域的成功应用相比,语言信息处理技术的发展都是相当缓慢的,历经坎坷,至今未能取得重大突破,而且至少在一二十年内也难以取得突破性的进展。究其原因,我想,还是由于人类的语言同人类的思维、智能是密切相关的。研究语言,当然要依靠思维,而思维又要用语言表述,要解开这个结,恐怕不是一朝一夕的事。 另一方面,经过50年的探索,在自然语言处理领域还是积累了很多成功的经验和失败的教训,形成了众多的逐步成熟的的理论和技术,为新的突破积蓄了力量。 自然语言处理的核心技术是将句子(数量无限)变换成由词语(数量可控)及其抽象形式(数量有限)构成的用某种数据结构(句法树、复杂特征集或语义网络)表示的内部形式(数量有限),可以将它称为语言分析技术。 语言分析技术可以分为基于规则的与基于统计数据的两大类。这两类技术曾有过一番孰优孰劣的竞争。目前,学界已普遍认为应当综合应用这两类技术。概率语法通过语料库统计给每条语言规则加上概率值,语言规则便有了“柔性”,不再是“说一不二”、“非此即彼”的了。概率语法是有机结合这两类技术的较好的理论体系。为了完成这种统计,事先必须按照人给出的语言规则加工语料库(至少要加工一部分训练语料),这说明统计方法也需要规则的指导。两者之间的结合和互相利用是必然的趋势。 语言分析可以划分为词法分析、句法分析、语义分析、篇章分析等步骤。现在,词法分析和句法分析相对成熟,语义分析成为研究重点。对象单元由小到大,从句子向篇章发展。实际上只有在篇章的范围内分析,省略、指代、句子的固有歧义等问题才得以解决。 前面说自然语言处理技术尚未取得突破,其含义就是完整的语言分析技术尚未过关。但其中某些技术却是有实用价值的。浅层分析技术或者只提取句子中的名词短语,或者只识别句子的谓语中心词及其他组块同谓语中心词的依存关系。这样的技术就是适应当今大规模网上文本信息处理(文献检索、信息提取、文本分类等)的需要,吸收传统的语言分析中某些局部技术而发展起来的。 语言分析技术同语音识别、语音合成、文字识别等信号处理与模式识别技术的融合是一个新的趋势。 尽管说自然语言处理研究举步维艰,但应用自然语言处理技术开发的实用系统及产品还是在生气蓬勃地发展。机器翻译已改变了单纯依靠研究经费投入的局面,开始从市场得到回报。还有些像电子词典之类的产品也吸纳语言信息处理技术而提高其技术含量和智能化的水平,在市场上取得成功者已不少见。 正因为有强大需求的推动,近年来,自然语言处理界的学术活动比以往活跃,全国性的学术会议、中文唱主角的国际会议、学术刊物、著作明显增多。青年学生也感受到了这股浪潮,今年报考北大计算语言学博士生的人数超过以往任何一年。 2.在自然语言处理研究的过程中曾经出现过各种各样的理论,依据这些理论也出现过不少产品,但效果均不尽人意,那么您认为要想出现真正实用化的产品的话,在理论上还需要有什么样的突破? [讨论] 一方面自然语言处理技术的市场在发展,另一方面不少产品的效果不尽人意。这都是事实。理论研究和技术上的突破固然会带来更好的产品,但市场的需要和产品的开发又不能消极地等待新理论的创立。实际上,现在实用系统所凭借的理论、所利用的技术并没有穷尽已积累的理论研究成果。现在实际运行的自然语言处理系统所采用的语言分析技术的主流还是以句子为单位的基于规则的句法分析辅以适度的语义分析。实用系统开发者之所以不采用深入的语义分析和篇章分析,很可能是因为还缺乏必要的资源或者采用这些技术并不能改善产品的性能价格比。另外,我想也存在如何认识自然语言处理技术产品的性能、如何正确运用这些产品的问题。以机器翻译为例,可能由于望文生义,可能由于研究者的过度自信,也可能由于广告宣传的误导,造成对机器翻译的期望值过高,以为它可以代替人进行翻译,而不是把它作为辅助人进行翻译的工具。利用英汉机器翻译系统辅助翻译、编辑、出版《精细石油化工文摘》就是机器翻译应用的成功实例。 我们都有学外语的经验。不同类型、不同水平的外语人才各有其用。人只有找到适合自己的岗位才好发挥聪明才智,每一个自然语言处理系统也应该像人一样在适合自己的岗位上把潜力充分发挥出来。 理论创新永远是需要的。不过,一般地说,理论创新需要坚实的基础和丰富的实践。北大计算语言学研究所长期以来,一直在计算语言学领域坚持做基础研究,一方面是为了建设语言信息处理的基础设施,另一方面是为理论创新积蓄技术与人才。在语言信息处理的基础设施建设方面,北大计算语言所做的一些工作已经受到关注,如《现代汉语语法信息词典》的开发。我想,贵刊来访问我,应该是了解到了这些情况。请允许我借这个机会,向业界介绍一项新的语言工程。从今年4月起,北大计算语言学研究所同Fujitsu等单位合作,对一年《人民日报》语料(总量约2600万汉字)进行词语切分、词性与专有名称标注的加工。这个语料库系统建成之后,结合《现代汉语语法信息词典》及其他成果,将为语料库语言学研究和现代汉语研究的深入以及语言信息产业的发展提供丰富的资源。这项工程正在顺利实施中。在为理论创新积蓄技术与人才方面,现在也看到了初步的效果。北大中文系陆俭明教授指导的博士研究生詹卫东在长达6年的时间里,始终坚持在北大计算语言所参加语言工程实践。詹卫东已于今年6月完成了他的博士学位论文《面向中文信息处理的现代汉语短语结构规则研究》。这篇论文不仅给出了系统的有实用价值的短语结构规则,而且提出了富有创造性的“广义配价模式”,为解决汉语分析的难点之一即述补结构语义指向问题指出了现实可行的途径。我以为这样的创新是扎实的。有根底的。 理论研究和基础研究往往受制于经费不足。现有的技术和语言数据资源如果运用得当,也能开发出适应市场的产品或提高信息技术长品的智能水平。市场的回报将支持理论研究和基础研究。希望自然语言处理领域能出现这样的良性循环。 3.中文作为人类宝贵的文化财富,自然希望在全球信息化的进程中能对人类有所贡献,但是由于中文的独特性,使得这一愿望实现起来难度更大,那么您认为在探讨自然语言规律的过程中,对中文和西文的研究应该有什么方法上的不同? [讨论] 语言与文化之间确实存在密切的关系。不过,这对任何一种人类的语言都是一样的。由于语言的本源性和文化性,语言研究已成为西方现代哲学和人文科学的突破口,语言学已成为人文科学中的领先科学,也是人文科学与自然科学之间的桥梁。西方对语言科学的重视已提到足够的高度。因此,我以为这个问题是否可以换个提法:“汉语是全世界使用人数最多的语言,让汉语在全球信息化的进程中发挥它应有的作用,作出贡献,这是以汉语为母语的人(甚至可以把懂汉语的人都包括进来)的愿望,也是责任。” 我的意思是暂且在技术的层面上讨论这个问题。我的同事和我研究汉语,有优势,也有局限性。在以往发表的论著中,我可能比较多地强调了汉语语法体系的特性。同属于屈折语的英语和属于黏着语的日语相比较,作为典型的分析语的汉语缺乏可以作为自动分析线索的形态标记和黏着成分,给汉语分析增添了很多困难。正因为如此,我强调汉语自动分析中语言知识库的重要性。北大计算语言学研究所已开发了一个规模达7万多词语、包含词语的丰富的个性语法知识的《现代汉语语法信息词典》。在此基础上,长期目标是建设一个综合型语言知识库。这个综合型语言知识库将 (1) 按“字、词、短语”的方向由“词”向“字”和“短语”两个方向扩展。现在《现代汉语语法信息词典》中已包含覆盖国标GB2312全部汉字的语素库,为文本中未定义词的识别提供了资源。现代汉语短语信息库也在建设中。 (2) 按“词法、句法、语义、语用”的方向发展。结合机器翻译系统的开发,已在“广义配价模式”理论的基础上开发了《现代汉语语义词典》。 (3) 词典与语料库的结合。在语料库加工方面,除词语切分和词性标注外,已经开始自动注音研究。 (4) 由单一的汉语知识库向多语种知识库发展。 建设综合型语言知识库的目的是为包括词法分析、句法分析、语义分析、语用分析的汉语语言分析提供全面的支持。在现阶段,对汉语句法分析还要给予足够的重视。在回答你的第1个问题时,我曾说了,“现在,词法分析和句法分析相对成熟,语义分析成为研究重点。”,那是针对自然语言处理的全局情况而言。现有的计算语言学理论和模型绝大多数都是以些英语为背景的。应当承认发达国家开展计算语言学研究比我国早了20年。英语句法分析对自然语言处理技术已作出了充分的贡献,将研究重点转移到语义分析是自然的。我以为汉语的句法分析尚有很大的潜力,不应当放弃。我当然也认识到语义分析的重要。不过,我认为句法分析解决不了语言分析的全部问题,语义分析同样也解决不了语言分析的全部问题。英语、日语是这样,汉语也是这样。我认为全人类用于交流信息、传播知识、发展文化的各种自然语言有着深层的相似性。在语义分析和语境分析的层次上我注意到的是各种语言的共性。我很难赞同在语义分析方面汉语会超越其他语言提前达到胜利彼岸的乐观估计。 现在回到语言和文化的话题。这个问题对于各种语言有共性,对于古代和现代也有共性。我只想说,在现代声、光技术发明之前,璀璨的古老的中华文化确实是凭借汉语的书写符号即汉字才得以保存至今。大量的中文古籍是华夏子孙的、也是全人类的宝贵财富。实现古籍电子化也伴随着大量的自然语言处理课题。纵向研究与横向研究的结合有助于另辟蹊经。北大计算语言学近几年开发古诗词计算机辅助研究系统就是为了在这方面积累技术和经验。 4.您认为自然语言处理的“终极世界”将会是怎样的?会达到中文完全摆脱西文的束缚,成为独立的计算机语言的境界吗? [讨论] 我还不清楚“终极世界”的含义。也许是指自然语言处理技术究竟能走多远?能达到什么样的境界。最高境界当然是真正实现自然语言理解。未来的计算机如果能像人学外语一样对人类的自然恃匝У搅恕八幕帷保椿岫痢⒒嵝础⒒崽⒒崴担秃芰瞬黄鹄病2还八幕帷币彩且桓瞿:乃捣āK礁叩涂梢圆畹煤茉丁? 达到语言信息处理的“自由王国”境界不是不可能的,不过还需要长期的、也许几代人的努力。 我已经说了,在语言的层次上,汉语同西文应该没有本质的区别,似乎不存在“中文摆脱西文的束缚”的问题。至于说到汉字同西文字母,当然有差别,西文字母不仅数量少,而且是恒定的。而汉字是大字符集,且随着应用领域的扩展(如古籍整理),字数不断增多,当然有很多麻烦。不过,随着国际标准大字符集的制订和硬件、通讯成本的下降,对语言信息处理来说,这种差别应该不是本质的。 5.自然语言处理是一门交叉学科,它涉及到语言学、数学、逻辑学、计算机学等等多个学科,那么您认为在研究自然语言的过程中,该如何利用好这些学科的最新研究成果,比如先进的多媒体技术、Internet技术等? [讨论] 发展交叉学科必须要有兼通多门学科的人才。作为学科带头人,必须不断调整知识结构。学科带头人还必须重视青年人才的培养。现在兼知数学、语言学、计算机科学的人才虽然不多,水平也不算高,多少还有一些。从事计算语言学研究的人兼知哲学、认知科学、脑科学等相关学科的更是微乎其微。改善人才结构也是自然语言处理技术取得突破的基础工作。 计算机要“四会”人类语言,当然要依赖多媒体技术的发展。过去,实现多媒体、多模态人机交互的语音识别、语音合成、文字识别等技术是独立于语言分析技术发展的。既然这些媒体是语言信息的载体,将这些技术同语言技术融合起来发展不仅是有利的,甚至可以说是必由之路。 Internet为人们提供了超大规模的文本信息。开发查准率高的检索引擎、电子文本信息分类及分级管理、结构化信息的提取都将促进语言分析技术的应用和发展。 并行计算技术的发展也为自然语言处理技术(特别是基于统计的方法)的进步提供了新的基础。不过,并行计算技术也不能解决自然语言理解的全部问题,因为思维过程很多是串行的。 应《微电脑世界》周刊记者要求,作者回答了以上5个问题。 记者整理后发表于该杂志1999年第31期11-15,题目是记者加的。

  • 上一条:关于汉语词汇史研究的一点思考( 张永言/汪维辉) 下一条:80年代以来汉语信息处理研究述评(詹卫东)

    关闭