义词的不同义项有不同用法。如,“繁荣”
的“充足”与“使充足”分别属于形容词和
动词。在处理书面文本时,还把并非同一 语言成分的多词性现象统称为兼类,这包 括:c同形同音。如。“别”兼副词与动词。 d同形异音。如,“他是个好(hO.o)人”与
“他好(h的)睡懒觉”中的“好”兼形容词与 动词。
小类的不断细分是在不IN层级上引入 了意义因素,必将带来更多的兼类,而且将 造成交叉兼类,即有的是兼大类,有的是兼 小类,有的是兼而有之。因jl:l=,有人主张为
了提高自动5-)-析效率,在标注时,不要把小
•30•
类分得太细o[16](P19)我们认为,这只是暂时 避开了问题,而不能最终解决问题。关于 小类细分的重要性,及其对解决大类兼类
的作用与局限,:zls=文第3节将展开详述。 这里重点介绍我们在处理名词小类兼类日,-j- 的一些作法。
兼类从理论I-_讲,是指词语经常地、稳
定地具备多种用法。实际操作起来,如何 准确地把握经-g-性、稳定性这一标准,是问 题的关键。信息处理界的概率统计法,无 疑为基于主观语感的内省法、类推法,提供
了直观的、量化的、可操作的客观衡量或参 照标准。如果两种(或多种)用法统计数 字悬殊很大时,就归入到统计上占优势的 一类中去。如,“合同”充当名词和副词的 频次分别是68和1,低频词性就完全可以
看成是一种不稳定的临时用法,而不处理 成兼类。【171只有两种(或多种)用法统计数 字较为接近时,才处理成兼类。但问题的
难点在于,数字间从相互接近到差别很大, 是一个渐变的过程,一些临界状态有时颇 难把握。为此,我们设想,下一步是否可以 先把词语用法按频率分出级别,即高频、次
高频、中频、次低频、低频等,各频率均给出 量化指标。然后,区分高频与低频间的不 同等级,分别都予以适当标注,以备计算机 优选。对于因受语料限制,难免会发生的 某一种用法统计数字为零的情况,再结合 语感进行修正。
概率统计法的实质,是以最大可能作 为唯一可能。我们认为,为了提高计算机
YS"析的自动效率,在处理小类层面兼类时,
仍然需要使用这种方法,这样就可以坚持 兼类尽可能少这一总原则,这一点跟处理 大类兼类的原则是一样的。按照这二策 略,我们运用山西大学开发的软件,解决了 大部分问题。例如,把“月老”、“红娘”处 理成个体名词,而把“西施”、“诸葛亮”、 “包公”、“牛郎”算作专有名词。另一方
面,从长远角度考虑,为了最终提高计算机
分析的精确性,叉,-j-小类在统计学意义上不 同等级的非高频用法,下一步其实也需予 以适当关注。这样。概率统计与规则的方 法就可以配合起来,互校互证,对深入解决 兼类问题也许会更好一些。
三、对NCT法的理论反思
3.1 作用--I与ffr值
自然语言理解,归根结底是意义的理 解,语义分析在整个环节中占有核心地位。 可当前的语义分类尚不足以给词法、句法 分析提供足够强有力的保障。因此,为了 避免对意义的过分依赖,以形式分析为基 点的主流加工模式,大多依靠统计和低层 面的语言知识。可即使这样,在词语加工 层面,一些极其重要的语义信息,也已显示 出不容忽视的倾向。比如,=11-,京大学给《人 民日报》语料做分词和词性标注时,除了标 出名词这一语法属性外,还对指人名词这 一极其重要的语义小类同时做了标注。可 以说,MCT法正是顺应这一需求,在传统 的词性标注与句法标注间,增加了小类标 注这一环节。而带有小类信息的语料库, 概言之有以下作用:
-N"先,可以为汉语的本体研究提供直 接帮助。
当前,语言学本体研究进行的范畴与
次范畴研究日渐深入,获取一定数量的、经 过加212的熟语N-已成为研究者的迫切需 求。限于目前的实际情况,我们没有必要 也没有可能等语言学研究成果相当成熟以 后,再来开始我们的语料库建设。我们完 全可以采用边研究本体边加212语N-的思
路,以语义粗加工语料满足研究的实用需 要,再以研究成果修正现有的标注规范集, 实现两者的良性互动。从这个意义上看, 我们的语料库加212不可能是一蹴而就的事 情,而带有很强的实验性。
具体到现阶段的名词加212,我们所设 计的不同层级小类标记集,为了减少标记 的长度,在技术实现上,并不在一个平面上 同ml-展开。不同的研究者可根据不同的需 要,有选择地点击进入,从而获取名词所负
载的不同级别的语义次类信息,掌握语料
库中不同深度和细度的熟语料,灵活地开 展相关研究。
其次,可以为中文信息处理研究提供
基础资源,有助于:
(1)信息处理用名词标记集的制订。
《信息处理用现代汉语词类标记集规
范》的研制者指出,名词“由于数量多,小
类也显得很庞杂。如何标记名词小类是一
个颇费脑筋的问题”。比如,对专有名词的
范围,大家的看法就不完全一致。常见的 小类有人名、地名、机构名、品牌名、事件 名、菜名等。根据专家意见,“回族、斯拉夫 民族”等不少族名并不能当地名用,于是又
增补了族名这一小类。【16】㈣”可见,名词小 类标记之所以成为让人头痛的问题,正在 于其内部各类间的细致差别没有搞清楚。 因此,尽可能地发现名词内部可能有的类
别,并在语料库多层次加工中给予细致标 记,有助于-iN语大类、小类等标记的确定。
(2)揭示词项在不同层面的兼类规
律。
信息处理讨论的兼类,其实是一种广 义的同形异义异构现象。小类的细分有助 于加深对不同层面兼类的理解:
一是大类兼类。词性差别已初步反映
了大的语法范畴意义的不同,再结合小类
标记,就便于发现大类兼类背后更深层的 语义原因。譬如,动词、名词兼类是汉语各 种兼类中比重最高的,如果语料库中,两大 范畴内部都标上细致、准确的小类,就能统 计出制约动名兼类的语义优先因素。进而 言之,对特殊语义造成的动名两用现象,就
有可能立足于整个系统做出更为妥贴的处、 理。比如,“长跑、冬泳、合唱、摔跤”等兼 有名词性用法的动词数量很大,是算作兼(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)