• 简论黄曾阳先生创立的HNC理论(苗传江)(2013-06-05 13:11:53)
  • 简论黄曾阳先生创立的HNC理论 苗传江 (北京语言文化大学语言信息处理研究所,北京 100083) 《中文信息学报》1997年第4期发表了中国科学院声学研究所研究员黄曾阳先生的论文“HNC理论概要”,这是一篇具有开创性的力作,它展示了自然语言理解的突破性进展,读后令人自豪和振奋。 HNC理论是黄曾阳先生用长达八年的时间潜心探索、精心架构的创新成果,包含极其丰富恢弘的内容,在概念的表述系统、语句的表述模式、知识库的建设、自然语言理解系统框架的设计等方面,都有独到的建树和精到的见解。HNC理论的精深内容和卓越的贡献远非一篇文章所能尽所欲言的,本文仅根据笔者初步的学习所得简论其两方面的内容和贡献。 1 HNC理论创立了自然语言表述和处理的合理模式 自然语言处理作为人工智能的一个分支,已有40年的发展历程,形成了计算语言学这一跨接语言、信息、认知科学和计算机技术的边缘学科,它的发展主要围绕三个方面:1.自然语言的表述和处理模式;2.自然语言知识的表示、获取和学习;3.研制开发自然语言的应用系统。其中,自然语言的表述和处理模式是根本,决定着整个自然语言理解的方向和进程。若干年来,自然语言理解的各个应用领域都无重大进展(比如机器翻译,特别是汉语与印欧语之间的翻译,搞了几十年,至今仍与实际应用水平相去甚远),其主要原因正是由于缺少科学完备的自然语言表述和处理模式。 纵观语言研究和自然语言处理的历史,在自然语言的表述和处理模式方面,源于印欧语系的语法学和句法分析一直居于主导地位。八大词类、六种句子成分、短语结构和句法树成为语言分析的基本概念和依托。对于这一传统分析模式,仅在70年代,就曾一度受到菲尔墨(Fillmore)和山克(Schank)的质疑和挑战。80年代以来,语料库语言学的兴起使人们对统计模式产生了过高的期望,以致忽视了菲-山挑战的实质意义。 黄曾阳先生认识到,自然语言传统分析模式(含统计模式)的根本弱点在于:它不是描述语言感知过程的适当模式。 面对语音流的五重模糊(发音模糊、音词转换模糊、词的多义模糊、语义构成的分合模糊、指代冗缺模糊),面对文字流的后三重模糊,大脑的语言感知应付裕如,表现了强大的解模糊能力,自然语言处理技术当前无从望其项背。 近20年来,自然语言处理囿于传统模式,不图突破。但是,它所面临的所有重大课题,从音词转换到机器翻译,从全文检索、信息抽取到智能阅读助手,都在呼唤语言表述及处理新模式的诞生;呼唤上下文联想处理向“知其所以然”的语义理解前进;呼唤向语言感知的方向靠拢。随着网络时代的来临,这一呼唤的迫切性和严峻性在与日俱增。 响应这一呼唤才意味着真正的突破,但突破的契机何在?悲观论者认为:语言感知过程密切依附于大脑中万亿神经网络,依附于浩瀚无垠的世界知识海洋,在对这个“网络”和“海洋”的奥秘未作出充分揭示之前,模拟语言感知过程是不现实的。 事情果真如此悲观么?不。黄曾阳先生对此进行了八年的艰苦探索后,形成了以下三大理论要点,这三大要点集中体现了HNC理论在自然语言表述和处理模式上的突破。 1.要把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。知识库建设的首要目标应定位于自然语言模糊消解。 这是HNC理论对迄今为止的知识库建设进行总结后得出的论断,具有极其重要的指导意义。 人工智能必须以知识为依托,自然语言理解必须以语言知识为依托。这是常识,没有人对此提出过疑义。但是人工智能和自然语言理解最需要什么样的知识?这些知识如何表达,又如何获得?这是知识库建设的基本问题。对这个问题的认识自人工智能诞生以来,已有的巨大的进步,但从自然语言理解的需要来看,这个进步是远远不够的。 人工智能的早期发起者几乎将知识混同于规则,这是不奇怪的,因为规则易于为计算机所把握。利用规则进行推理的过程,可利用产生式给以形式描述。这样,计算机的程序就可以模拟大脑思考。如果大脑的思考过程仅仅是逻辑推理,那么,知识等同于规则的认识就是正确的。当然,大脑的运作过程不仅仅是推理,但推理终究是大脑运作的基本表现之一。因此,规则的运用仍然可以取得显著的效果。20世纪70年代崭露头角的专家系统就是规则运用的巨大成果。不久前,IBM的“深蓝”计算机在与国际象棋世界冠军卡斯帕洛夫的人机大战中赢得了胜利,应该说体现了这一运用的顶峰成就。 逻辑推理对自然语言处理、语言学和知识库建设都有重大影响。在语言学上的近期突出表现是蒙塔古语言学的兴起,在知识库建设上的集中表现是美国的CYC计划。至于自然语言理解,应该说,到目前为止,所有的自然语言理解系统,从早期的LUNAR和HEARSAY到最近的LeMICON都是规则系统。尽管后者的知识获得是自学的,但知识的运用仍然是规则的。 以产生式形式表现的规则就是逻辑学的蕴涵关系,它是推理的基本形式。按照逻辑学的观点,知识就是一系列的命题,命题之间存在推理关系。规模空前、推理规则达100多万条的CYC知识库就是基于这一思路花了10年时间(1985~1995)建立起来的,当初其主建者曾宣称,到世纪之交,CYC知识库将成为计算机的基本配置之一。但是,到10年届满时,这个梦想完全落空,CYC被一些人视为失败的典型。 CYC建设的10年期间,正是语料库语言学大发展的10年,但主建者对此似乎置若罔闻,这成了批判者的基本论点,但主建者心里明白,他所追求的知识不是简单的统计可以得到的。那么,CYC的根本问题何在? 根本问题在于该知识库的目标和知识表示方式。 CYC知识库主建者将目标定位在建立一个万能的“常人”自然语言理解系统,以弥补领域专家系统的不足。例如,一个血管疾病的诊断专家系统并不能辨认患者年龄与体重的填写错误,CYC系统可以帮助它解决这类问题。显然这涉及浩瀚无边的常识性知识,如果对这类知识采用一价谓词加自然语言的方式加以描述,数以百万计甚至千万计的规则也难以包容,因此,CYC含有160万条规则是不奇怪的。但是,问题的要害不在于一阶谓词,而在于以自然语言充当命题的概念表述符号,这是规则膨胀的根本原因。 上述CYC的目标应该说是自然语言理解的天职。主建者在语料库的呼声压倒一切时不逐时流,按既定方针坚持到底,值得钦敬。问题在于CYC的目标不可能一蹴而就,

  • 上一条:语言学相关问题简论 下一条:汉语的转换生成语法研究

    关闭