• 面向自然语言处理的现代汉语词组本位语法体系(2013-06-08 21:59:50)
  • 【内容提要】本文从计算机处理自然语言的角度审视现代汉语语法的理论建设问题,较为全面地讨论了现代汉语词组本位语法体系的思想原则和分析方法,及其在自然语言处理应用方面的表现。词组本位体系以它已有的丰富研究成果为依托,以信息时代计算机技术的飞速发展和广泛应用为契机,一方面在自然语言处理研究中进一步检验其科学性和形式化的可操作性;另一方面也在面对实践应用中新的挑战时不断发展完善。【正 文】 —全景扫描:词组本位语法体系面面观 1.一以贯之的功能分类思想 词组本位语法体系坚持以功能(也即分布distribution)标准对汉语的词进行分类。之所以采取这种分类标准,可从分类目的着眼得到合理的解释。 对汉语的词进行分析,一个很直接的目的就是构建汉语的语法描述系统,用来描写汉语语言事实和规律,解释各种语言现象及其相互间的内在联系。基于这一目的,对词的分类就必须满足一个条件,即分类结果应该能够有效地说明各类词之间的位置关系(也包括搭配关系)。 对词进行功能分类的思想很容易扩展到词组的分类上。[1]词组功能分类的结果直接概括了一个词组向外组合的性质特征。而通常对词组采用的结构分类方式则类似描述词的内部构成,虽也可在一定程度上说明一个词组对外的结合能力,但跟功能分类方式相比,还是隔了一层,是间接的。譬如说,“打球”,按功能分类,属动词性词组(vp);按结构分类,属述宾词组。对vp而言,我们可以像描述动词那样,方便地概括它跟其他功能类的词组之间的搭配关系,如可前加介词词组(“跟他打球”)形成状中关系;对述宾结构而言,要概括它跟其他结构类的词组之间的搭配关系,就麻烦得多。因为我们并不能根据一个词组的内部结构类型而直接地知道它的外部组合情况。此外,词组还可跟词直接组合,前者是结构类,后者是功能类,描述它们之间的搭配关系显然也是不协调的。词组本位语法体系在词和词组两级语法单位上贯彻功能分类标准,为构建一个简明有效的语法描写系统打下了扎实基础。 2.层次和关系并重、多种方法递进运用的分析策略 以层次分析为基础, 词组本位语法体系进而逐步发展出变换分析法、语义特征分析法、[2]语义指向分析法[3]等多种分析手段,对语言成分间的句法关系和语义关系,以及各个成分本身的语法特征和语义特征及其相互间的制约关系,都能有效地分层加以描写刻画。 就关注对象而言,层次分析法针对的是单个的句法结构。一方面它只能分析同一层次上相邻直接成分(immediate constitute)间的关系但无法顾及不同层次上非直接成分间的关系,另一方面它只是指出同一层次上直接成分间的句法关系却没有涉及语义关系。变换分析法把关注对象从集中于单个结构转向不同结构间的变换关系上。基于相同的语义关系对应相同的变换关系这个前提,通过考察不同结构间形式上的变换关系,可以对直接成分间的语义关系做出判断,离析出表面模式相同而深层语义关系有别的句法结构来。从这点上说,变换分析法把单个句法结构范围内解决不了的问题转化为相关句法结构间的变换来求解,比层次分析法扩大了考察视野。这类似于几何学中添加辅助线的办法。至于结构模式相同而语义关系不同的原因,则可通过细致比较语言成分间语义特征的差异来解释。跟变换分析、语义特征分析关注直接成分间的语义关系相比,语义指向分析关注的则是非直接成分间的语义关系。虽也是着眼于单个句法结构,但语义指向分析不同于层次分析,是跨层次进行分析的。由此看来,上述几种分析方法可以说是覆盖了一个语符串内部结构从句法到语义的所有方面,既有对同一层次上直接成分间句法语义关系进行分析的,又有对不同层次上非直接成分间远距离语义关系进行分析的,形成了一套逐级递进的全方位分析机制。 3.词组本位语法体系的歧义处理模式 基于上面的语法处理模式,词组本位语法体系形成了层次分明行之有效的汉语歧义分析和消解技术。在对自然语言中广泛存在的歧义问题的认识上,词组本位语法体系坚持一贯的层次观念,区别在各个层次上造成歧义的不同原因,包括同形多义词、[4]结构层次组合歧义、句法结构关系歧义、语义关系歧义、语义指向歧义等等。后两种歧义直接牵扯到语义问题,消歧难度比结构歧义要大得多。特别是在自然语言处理的现有研究水平上,一时还很难找到有效的消歧策略。因此把近期目标定位在结构歧义问题上,应该是明智之举。 对结构歧义,朱德熙先生很早就提出了“歧义格式”的概念。[5]冯志伟教授进一步将这一概念深化成为“歧义结构的潜在性”。[6]区分了格式固有的隐性歧义和具体实例的显性歧义。我们认为,对所有的结构歧义而言,潜在性是语言系统赋予的自然属性。从具有潜在歧义的系统备用格式向表层语言符号串发展,既可能造成歧义实例,也可能造成没有歧义的实例。语言系统本身提供了丰富的手段或者说是调节机制来完成这一过程。面向自然语言处理,还应该根据从隐性的格式歧义向显性的实例歧义映射的不同情况,把歧义格式进一步分化为不同的类型。[7] 二 特点透视:词组本位语法体系的自适应性和可扩充性 在对一个语法体系有了全局性的总体把握之后,对其特色之处作进一步剖析无疑会有助于更深入的了解。而在审视一个语法体系的特色时,体系内各部分间的相互协调能力也即系统自适应性,对新的语法思想的兼容能力以及对语法规律的挖掘能力也即系统的可扩充性,是两个重要窗口。本节就来讨论词组本位语法体系在这两方面的表现。 1.词组本位语法体系的自适应性项目 一个语法体系的自我协调性能如何,取决与它是否充分反映了所描述语言对象的内在特质。就汉语而言,以下三个特征当在考虑之列:(1)词、词组、句子各级语法单位一定程度上同构;(2)词、词组及句子三者并无天然的形式界限;(3)词组构造可以在相当宽松的条件下套叠。 联系上一节对词组本位语法体系的介绍不难看出,以词组为本位即立足同组,统摄词和句子展开汉语的全面句法分析,正与上面这三个特征吻合。如果剔除言语运用中的附加因素(如语气、独立语、插入语等等),仅在抽象的语言系统层面看汉语词、词组、句子各级语法单位的构造,很容易发现这三级单位的同构关系。单纯词谈不上内部构造可以撇开不论,合成词的内部构成方式有述宾式、偏正式、主谓式、并列式等等,词组的构造同样是这样几种类……

  • 上一条:《诗》训零补 下一条:民族语言学论纲

    关闭