语料库建设中的名词标注方法(2)

来源:南粤论文中心 作者:韩蕾 发表于:2010-06-03 01:26  点击:
【关健词】语料库;名词;多层级分类标注
词的情况要好一些,像正在开发的信息处 理用汉语配价词典,就是动词描写得较为 完备,名词知识明显不足。[9](㈣主要原因, 就在于名词语义分类与动词语义分类脱 节,不能满足计算机形式分析的需要。另 外,近年来国

词的情况要好一些,像正在开发的信息处 理用汉语配价词典,就是动词描写得较为 完备,名词知识明显不足。[9](㈣主要原因, 就在于名词语义分类与动词语义分类脱 节,不能满足计算机形式分析的需要。另 外,近年来国外一些有代表性的语义知识
库,越来越重视以“语义关系”作为重点描
-'N内容。随着汉语语义知识库建设的深入,国内也有更多的学者呼吁,加强对汉语 词语间各种组合语义的发现。【I’从这层意 义上看,我们主张在汉语语料库加工中,先 给名词标上关系义素特征,以便说明词语 之间“邻接对”和“非邻接对”等的搭配关 系,应该说也是恰#jzji顷应这一时代要求的。
至于名词组合关系特征的具体实现方
式,我们有两个选择:一是用分类的方法。 即,选择有限的特征立类,采用分类、分次 类、分次次类这样的方式,把这些类不断地
细分下去。就每一个名词而言,带上的是 “单一标记”。二是用属性标注的75-法。 即,通过属性特征描述,建立复杂特征集。 就每一个名词而言,带上的是“复杂特征标
记”。考虑到我们当前尚缺乏《现代汉语
语法信息词典》之类的词典作为底层支撑, 全面发现并落实词语的复杂特征属性将是 一项十分浩大的语言工程。而我们的目的 是希望,通过标注最主要的属性,来覆盖实 际语料中大多数分布的情况,从而优先发 现一批信息处理用规则,同时也便于语言 学本体研究的展开。因此我们倾向于用第 一种方法把语料中的词类标注得再细一
点,[15】(附’从大类到小类逐级细分的思路正
是基于这样的认识而产生的。 在上述原则思想的指导之下,我们设
计了具体的实现步骤:
(1)确定对大多数组合具有普遍解释 力的语义特征。通过比较现有各类信息处 理用语法信息词典、义类词典,以及传统的 语文词典和百科知识词典,提取其“最大公 约数”,作为名词的组合特征。有些特征在 词典中并未获得广泛认可,但凭借研究者 个人语感及语料库调查显示对组构有非常 重要影响的,也酌情增补。
(2)建立语义特征的层级体系。在我 们看来,从词类到语义聚合类,是抽象度渐 减、由形式到意义逐渐逼近的过程,而语义 组合类是居中衔接的桥梁。在分类深度上
不宜太深,一般有2到3个层级就比较合 适;在分类广度上也最好能在句法类的简 洁与语义聚合类的精细之间取得平衡。按
在组构中的重要性,把属性特征分出层级,
每个层级标注细度应该不同。
(3)确立语义特征的形式识别标准。
把带有某一特征的典型成员(prototype—
member)——其资格认定充分吸收现有研 究成果——放到大规模语料库中,观察其 在上下文语境中的分布情况,主要寻找邻 接性(adjacent)条件,提取出有用的句法框
架作为判定规则。事实上,同一组合特征 往往会有多种句法表现;不同组合特征也
可能会有相同的句法表现。因此,为每一 个组合特征制订形式标准时,还需参照概 率统计数据,确定规则使用的优先顺序,以 尽可能使分类线索明确,便于操作。
(4)依据形式标准对名词进行归类。 操作时,由《现代汉语词典》释义出发,看 义项不同是否造成用法或功能分布(如,N-
测试框架的适应情况)的差别。综合运用: a、内省法:根据说汉语的本族人语感来识 别。b、类推法:选取意义、功能、用法等都 典型的词项为样本,把有待明确身份的词 项与之进行类比推演,各方面都接近的,可
考虑是同类,否则为另一类。c、概率统计 法:如果上述方法仍然不能解决问题,就通 过统计词语在语料库中用法的概率,决定
词语的次(次)类归属。此外,还参考了现 有词典的一些作法。
上述四个步骤其实是做了两个方面的
工作:一是分类(第1至3步),即设立名词 的范畴属性。二是归类(第4步),即为每 个名词赋予具体的属性值。

二、名词多层级加工实践

2.1    名词三级加工模式 限于人力、物力和时间,我们当前只选
择了《同义词词林》、《现代汉语语法信息 词典》(2003年7月电子版)和知网How. net,从中筛选出名词共有的、最主要的组 合属性。主要原因是,《词林》是一部不可
或缺的传统义类词典;后两部机用词典则
是目前信息处理界使用广泛、较为成熟的
语法、语义词典,或已公开发行、或属免费 在线资源,信息的查询、下载或获取相对比 较容易。在比较了这些词典后,我们初步 确定名词共有的组合属性,并把它们大致 分成三级。
第一级包括个体、物质、集合、抽象、非 量、事件、指人7个特征。根据优选语义 学,虚词作为标记特征构成的特殊规则要
优先于一般规则。我们主要借鉴《现代汉语语法信息词典》,以量词作为最重要的分
类标准,并辅之以方位词、4't-词等。 第二级主要吸收现有语法研究成果,
通过设置测试框架,把有配价特征的依附
性关系名词分出来,包括一价名词、二价名
词等。 第三级因小类内部句法语义差异而
定。比如,在-I-体非关系名词中设置场所 名词、称呼名词、专有名词等。
2.2名词归类实践
我们以国家语委、北京大学计算语言
学研究所、山西大学计算机应用研究所编 制的三份比较有权威性、代表性的词表为 蓝本,使用的检索工具是山西大学开发的
“中文语料研究软件系统(1.0版本)”,与 之配套的语料库已经过分词、词性标注和 人工校对,可信度比较高。碰到数据稀疏 时,再利用其他语料库,直至用google进行 网上在线检索,平均搜索语料总字数达
2000万字左右。这样,得到按义项和功能 分布设立的约4万个名词项。
目前,我们初步提出的名词多级分类
标准和词表,已交由山西大学计算机应用 研究所算法化后编制成程,EF输入计算机, iT.等待实际结果的反馈,以做后续的修订 完善。
2.3多功能名词的处理策略 汉语词语在大类层面上的兼类,一直
是困扰语言学界的老大难问题。信息处理
界除了传统语言学讨论的:a一个词的某 一个义项有多个用法。如,“学习”在“从 阅读、听讲、研究、实践中获得知识或技能” 这个意义上兼动词、名词两种词性。b多(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.