语料库建设中的名词标注方法(4)

来源:南粤论文中心 作者:韩蕾 发表于:2010-06-03 01:26  点击:
【关健词】语料库;名词;多层级分类标注
类、名动词、动名词,还是动词中的一个特 类?看法不一。据统计,这类词的动名用 法概率比较接近,宜处理为兼类。不过,跟 一般兼类不同的是,当它们为名词用法时, 语义上并不转指跟动作行为有关的事物, 而是自指

类、名动词、动名词,还是动词中的一个特 类?看法不一。据统计,这类词的动名用 法概率比较接近,宜处理为兼类。不过,跟 一般兼类不同的是,当它们为名词用法时,
语义上并不转指跟动作行为有关的事物,
而是自指动作行为本身,属特殊的、可受动
量词修饰的事件名词小类。 二是小类兼类。从小类到小小类,由
分布确定的类别与语义的联系越来越紧。 因此,类分得越细,跟义项的关系就越直
接,兼类现象也就越多。如,“大爷”在我 们现有的名词多级分类系统中,第一小类
级别上是指人名词,并不兼类;而在第二、
三小类级别上兼属关系名词、称呼名词等。 三是既兼大类,也兼小类。像“调查、
报告”等词,在大的类别上,既表动作,也表
事物,属动名兼类。在名词内部,既可受名 量词修饰,属个体名词;又可受动量词修
饰,属事件名词。 总之,兼类具有相对性。从大类到小
类类别的增加及交叉兼类,反映了类别分 化跟意义细密化之间存在必然的有机联
系。
(3)词语义项的自动标注和排歧。 词义标注,是要给文本中的每个词语
标上具体的义项。汉语常用词普遍存在着 一词多义现象,要从其众多义项中筛选出 正确的、符合上下文的词义解释,并不是一 件容易的事情。根据现代语义学,义项是
由义素构成的,义素也就是区别性语义特 征。而我们所标注的小类,实际上就是词 的句法语义特征。因此,在多义词排歧时。 如果能有事先标注好的语义特征标记作为 参照提示,必将加快义项自动识别的过程。 如,“同学”在以下三例中若分别标上“动
作”、“指人(关系)”、“指人(称呼)”这些 特征,其各自所属的三个义项也就很容易 确定了:

我们同学过三年。 这是我的老同学。 同学,请问到故宫怎么走?

(4)信息处理用组合规则的提取。 词语再分类可以说明词项组合的相互
制约条件,从句法加工的实际需要看,“动
+名”、“形+名”、“名+名”等任意两个成 分的结构规则都值得深入描写。我们曾利
用经句法标注过的语料库,抽取指人名词
构成的双名词语串,得到双名组构模块。 这样,在没有词典支撑的前提下,借助小类 细分先以简驭繁地提取出一批组合规则,
以区别不同句法关系,供结构内部排歧使
用。比如,“名1+名2”要构成同位短语, 就需满足“指人专有名词.4-指人称呼名 词”等语义限制。[18]‘Ⅲo’
3.2缺点与局限 名词分类的理想境界,应该是以完备
的类别、恰到好处的概括度,描写出词项间 所有可能的细碎区别。显然,这需要以名 词属性特征的充分发掘为前提。迄今为 止,动词属性特征的发掘相对来说已比较
深入,这就使精细的分类成为可能。像法
国语言学家发现了法语动词100个左右的
•32•
配价特征,以此把3000个动词分成2.000 个小类,每一小类平均只有1.5个动 词。⋯㈣而汉语名词的研究还远远不够, 以致于这一理想目前尚无法实现。
在这种背景下我们所采取的细类标注 法,就是一个折衷的办法。其实质是突出 对组构有重大影响的句法语义属性,XC.t比 做纵深挖掘,并在语料库中优先进行标注。 王惠(2003)指出,名词义项单位的划 分与确立,是靠名词的组合分布决定的。
每一个不同的义项,在形式上都会表现出 句法分布环境的互补差异。汹】(聃’很容易由 此推测,真正精细的类别,是与义项息息相 关的。可以想像,兼顾句法分布和语义差 别的类,如果无穷尽地细分下去.最后的结
果就是,每一个义项就代表了一个类。与 这个终极目标相比,我们当前所谓的细类 标注,显然远远顾及不到这么细微的句法 语义差别。从为计算机全面配备词项功能
信息这一总体目标来看,组合属性类的标 注也仅是其中的一个有机部分。因此,类 别细分本身并不是自足的,除此之外,还要
辅之以复杂属性特征描述、义项标注等多 种手段。
另外,我们目前所设立的这批名词分
级属性特征,融句法语义于一身,对大多数 组合按理应有较强的解释力。但在属性特 征的发现过程中,难免会出现遗漏和偏差,
还需要做进一步的调整。退一步,即使能
够确保这些特征的确是对组构有普遍影响
的优先重要因素,在面对真实文本中的非 优势组合时——此时有可能是,被忽略的 非重要特征可能上升为首要制约因素,标
注好的优势特征对这一特定组合反而不起 作用——因此,更广泛组合特征的发现,调 用系统存贮的语义聚合分类知识,以有效 地参与到语句的生成和理解中来,仍然是
必不可少的。

四、结语

本文初步提出,在语料库加工过程中, 对名词做多层级分类标注(MCT)处理的设 想。我们主要利用现有的较为成熟的信息 处理用语法和语义词典,从中筛选出一系
列重要的跟名词相关的句法语义特征,并
通过系统的形式手段来界定这些语义范

 
畴。在此基础上,对大量名词做了组合特 征的尝试性标注实践。“特征即关系”,事 实已经证明,名词组合属性的细致标注,对 揭示双名直接组合模式与搭配规则已经起 到较好的作用。我们有理由相信,它们对 潜在地说明远距离非线性共现序列也将起
到应有的作用。我们下一步的工作计划 是,根据语料库实际反馈结果,对现已设置 的特征范畴做进一步的优化,对名词词项
的分立再做调整,以更好更直接地为自然 语言处理服务。

参考文献 [1]詹卫东.面向自然语言处理的大规模语义知识库研究述要[OL].http://ccl.pku.edu.cn/doubtfire/Course,2004. [2]王珏.现代汉语名词研究[M].上海:华东师范大学出版社,2001. [3]俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001,(3). [4]储泽祥.名词及其相关结构研究[c].长沙:湖南人民出版社,2000. [5]王惠,朱学锋.现代汉语名词的子类划分及定量研究[A].面临新世纪挑战的现代汉语语法研究[C].济南:山东教
育出版社。2000.
[6]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002. [7]陈小荷.一个面向工程的语义分析体系[J].语言文字应用,1998,(2). [8]刘扬,于江生,俞士汶.CCD构造模型及VACOL辅助软件的设计与实现[J].语言文字应用,2003,(1). [9]詹卫东.基于配价的汉语语义词典[J].语言文字应用,2000,(1). [10]林杏光.词汇语义和计算语言学[M].北京:语文出版社,1999. [11]董振东,董强.知网和汉语研究[J].当代语言学,2001,(1). [12]宋春阳.面向信息处理的现代汉语“名+名”逻辑语义研究[M]。上海:学林出版社,2005.(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.