一、引言
经过半个多世纪的发展,计算机辅助语言研究已经成为第二语言习得研究的一个新方向,对语言学研究的各个方面以及第二语言教学实践都具有重要的参考价值和指导意义,尤其机读语料库的发展更是呈现出大幅的增长。目前语料库的发展越来越趋大型化,无论是库容还是电脑检索、查阅、统计功能都有了显著的提高。新一代的语料库,更是由于大多采用了较新的KDEM(Kurzweil Data EntryMachine)光电符号识别技术,使得语料的编码和编辑不再依靠单纯的人工输入,从而大大加快了语料的标注处理。20世纪90年代后,我国也展开了语料库的建设与研究工作。建成的语料库有双语平行语料库、专门用途语料库、学习者语料库和教材语料库等,它们都具有三个共同点:第一、建设目的主要用于二语习得研究;第二、语料来源主要源于我国学习者对英语书面语和口语的使用;第三、语料库语言学的研究与我国外语教学的研究需求密切相关。其中影响最大的是学习者语料库,到2006年底,已经建成或在建的学习者英语口语语料库有5个,书面语语料库14个,如2005年由文秋芳教授主编的“中国学生英语口笔语语料库(Spoken and Written Cor-pus of Chinese Learners,简称SWECCL)”,它们可以很好地帮助英语教师和语言研究者去发现中介语发展的重要规律和特点。相较之学习者语料库,我国教材语料库的发展才刚刚起步。目前影响比较大的是由上海交通大学郑树棠教授等研制开发,规模达到150万字的《新视野大学英语》语料库,以及广东中医药大学薜学彦老师建立的COLEN语料库。前者是为了编写《新视野大学英语》教材而专门建立的语料库,后者则包含《21st Century College Eng,1ish》,《College English》,《Complete New CollegeEnglish》,《New College English》等四套教材。语料库的有效利用离不开配套的检索软件,这对于缺乏相关软件应用知识的普通英语教师和英语学习者来说构成了一个很难跨越的障碍,使他们无法在教学工作或是日常学习中有效地利用语料库来丰富教学资源或是指导自主性学习。而即使掌握了基本的语料检索方法,也会在应用过程中感受到它的局限性,例如:检索结果有时可能没有包括检索者所感兴趣的条目,有时却又显示检索者不需要的条目或信息;其次,从检索结果中获取的知识并不总是和所付出的时间成正比;第三,检索的结果只提供包含检索关键词的上下文,需要检索者自己去检索、分析和总结。这些使得那些英语水平相对较弱,或缺乏一定观察、分析和总结技巧的学生,很难真正获益。同时,如果检索的内容与学生兴趣或学生关注无关,或是教师设计的练习活动只是纯粹单一的分析检索结果,就很难真正激发学生的积极性。英语教师在使用语料库进行教学活动时,根据不同的教学目的、学生的知识水平及需求进行精心的设计,就可以克服上述的语料库检索的局限,获得理想的教学效果。正是在这一背景下,2007年我院与上海外语教育出版社开展了合作开发新理念大学英语教材语料库的工作,本文将对该语料库的性质、特点和功用作一个评述和展望。
二、新理念大学英语教材语料库项目概述
新理念大学英语教材语料库收纳了由上海外语教育出版社出版的(全新版)大学英语系列教材17本,设计总规模74万词,其中综合教程6本,共计13万词;阅读教程11本,总计61万词。本教材语料库除了包括加了标注的文本文件之外,还将语料检索需要的软件进行整合,结合教师的日常教学备课需求和学生的自主学习需要,建立一个用户平台。本项目由上海外语教育出版社资助,建成后将填补国内语料库建设在这一方面的空白。在教师和学生中普及语料库知识,可以有效地推动我国的英语教学与研究,对英语教材评估、英语测试、网络课程的建设等具有重大的价值与意义。
1.新理念教材语料库的规模
本语料库将对收集入库的语料进行词性、语法、篇章三级标注。建立一个大规模具有统一标准和规范的、多领域、多体裁、具有丰富语言信息和语言使用范例的知识库。具体研究步骤包括:第一,对教材的综合教程和阅读教程进行校对等必要的预处理;第二,使用PosTagger对校对后的文本进行词性赋码,并对赋码后的文本进行第二次校对;第三,在词性赋码的基础上对文本进行人工语法标注,并在标注完成后进行第三次校对;第四,在经过词性和语法赋码的文本中加入篇章标注码,方便学生在日后语料库的使用过程中进行针对文体篇章特征的学习。
针对日常课堂教学和学生自主学习的教材语料库可以有以下几方面的应用:第一,作为重要的语言资源,为基于统计的各种英语语言建模、分析提供必要的训练数据;第二,可以为教师备课、授课和学生自主学习提供语言信息检索、抽取词对、短语对提供真实文本标注素材。丰富学生课堂、课后语言训练素材,为课堂实时教学提供延展空间。
2.新理念教材语料库建设方案
语料库的建设工作将分为两个阶段进行。第一阶段将由项目组完成对所有语料的编辑、标注和校对工作。第二阶段中我们将已经完成标注的语料交给计算机软件技术人员设计制作用户界面并制成光盘。整个建库流程大致如图1所示。
建库工作的核心部分是对语料的深加工和处理。语料在经过前期的编辑和校对后,才能入库。语料在入库前要经过6个加工步骤。首先,我们在教师和学生中分别进行需求分析,以便准确定位语料库的功能;其次,对语料录入和编辑;第三,我们组织教师对语料进行第一次校对;第四,对校对后的语料进行抽检;第五,对语料进行机器标注,加词性赋码;第六,对语料进行手工标注;第七,组织第二次校对,整理语料入库。
语料入库后,为了方便终端用户使用该语料库,需要将全部的电子语料和相关语料库检索软件整合成一个由五个模块构成的用户平台,各模块的具体内容如图2所示。
语料库前三个阶段的标注工作都是为了使最后的用户平台具备强大的检索服务功能。语料库的用户可以使用针对性的语料库检索软件来满足自己的要求。具体说有两大类,即教师备课和学生自主学习。在语料库的帮助下,学生可以进行形式多样的(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)