语料库语言学与壮语语料库的建设 |
|
|
向用户表明语料的标注并非完美无缺,它只是一种可能有用的工具。 第六,标注应该采用综合的使用范围广泛的语法理论以方便语料库的使用,而不是按照使用范围狭窄的某一特定的语法理论。 第七,任何标注模式都不能作为第一标准。在标注模式的确定过程中,目前比较理想的做法是,综合考察已有的各种标注模式,分析各种模式的长处与短处,结合自己语料库的实际应用,建立一种折中的标注模式。 以上七个原则,中心意思也就是最大可能地方便标注者和使用者,并被广泛认可。壮语语料库的驸码标注可参考Leech提出的这些原则。 (2)壮语语料库可参考的语料标注模式 自语料库诞生以来,人们采用了各种各样的标注模式。目前,语料库语言学领域内的许多研究者正在致力于建立一种国际统一的标准标注模式,可作为壮语语料库的参考模式。 COCOA参考系统是一种很早出现的用于从机读语篇中提取词汇索引的计算机系统,它的一些标注的格式已经被OCP(Oxford Concordance Program)所采用,而且被“朗文—兰卡斯特语料库”(Longman-Lancaster corpus)、“赫尔辛基语料库”等应用于语料的标注之中。TEi(Text Encoding Initiative)被认为(McEnery、Wilson,1996)最能反映当前语料库语言学家致力于建立更具形式化的机读语篇信息编码国际标准的动向。它采用SGML(Standard Generalized Markup Language)词性标记附码,在此基础上又制订了一套详细的规则。TEI标注模式已经为诗歌、书信、戏剧等基本文体制订了一套标注的标准。一个语篇的总体情况可以用文件类型描述(DTD,document type description)标出。DTD提供关于语篇所包含的语言单位、语言单位的组合形式,以及标注附码的含义等信息。 (3)壮语语料库可标注的类型 有一定规模的语料库的语料标注类型主要包括语篇背景信息、词性、词形、句法分析、语义、语篇结构等。这些内容也是壮语语料库应包含的类型。 语篇背景信息可以小部分通过文件名反映出来。语篇背景包括标题、作者(包括年龄、性别、国籍等)、上一页 [1] [2] [3] [4] [5] [6] [7] 下一页 |
|
|
|
上一个论文: 浅谈新形势下乡镇畜牧兽医站体制改革 下一个论文: 就语言学流派来谈语言学与英语输出 |
|