| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 书信 | 
您现在的位置: 范文大全网 >> 论文 >> 计算机论文 >> 正文 用户登录 新用户注册
试论中文信息处理的主流技术           
试论中文信息处理的主流技术
论文关键词:信息处理 n元模型 语音识别 句法分析
论文摘要:本文分析了中文信息处理的主流技术,尤其是几个重要的部分,即n元模型、语音识别和句法分析技术。

一、中文信息处理的特点
(一)汉字的特殊性
我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
(二)书面汉语的特殊性
汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。
(三)汉语语音的特殊性
在语音方面,汉语的特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显著区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。
(四)汉语语法的特殊性
在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。loCaLhOsT汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。
二、中文信息处理的若干技术
(一)n元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率p(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量w代表文本中一个任意的词序列,它由顺序排列的n个词组成,即w=w1w2。。。wn,则统计语言模型就是该词序列w在文本中出现的概率p(w)。利用概率的乘积公式,p(w)可展开为:p(w)=p(w1)p(w2|w1)p(w3|w1 w2)。。。p(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram):p(w)≈p(w1)p(w2|w1)∏i(i=3,。。。,np(wi|wi-2w-1)

符号∏i i=3,…,n p(…)表示概率的连乘。一般来说,n元模型就是假设当前词的出现概率只同它前面的n-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有p(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。
(二)语音识别
语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流,使机器听懂人类的语言,并及时的做出准确的反馈。语音识别技术包括了信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取,在这个问题上我们通常采用的是以音节为识别单元。另外,在特征参数的提取技术方面,由于语音符号中含有大量的信息,它们通常被称为声学特征。特征参数是决定语音识别质量的关键技术,因此我们应该极可能的采集所要传播语言的语义信息,剔除掉说话人的个人信息干扰,这样才能保证特征参数的有效性和准确性。
(三)句法分析
句法分析是以汉语的语法特征为分析方法,对句子、段落中的短语结构树进行各个句子成分关系的分析,分析的主要内容包括:句子中所有的单句,每个单句在句法中的作用是什么,在单句以上更大的语法结构是什么,句子中的短语或词组类型是什么,在句子中起了什么作用,最后,所有这些成分是如何有机组合或附着在整个句子中的,这些就是句法结构分析的主要内容,这叫做线图分析法。值得说明的是,英语语言结构中主语必须置于谓语之前,否则所表达的意思就完全变化了,当然,在一些特定情况下,如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。
三、结语
中文信息处理技术有着重要的意义,它是语言学与信息技术的有机融合,旨在对中文的音、形、义等输入计算机,进而进行必要的信息加工与处理,在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说,语言信息处理是将自然语言的各个部分,包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工,然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。我们都知道,自然语言是我们日常最重要的交流沟通工具,是人类进行思维活动、文化传播的有效载体,因此语言信息处理这种技术有着重要的意义,本文专门分析了利用计算机处理中文信息,即汉语信息处理技术,希望本文能够对同行们有所启示,还望能够多多交流学习,更好的完善这项技术。

参考文献:
[1]曹邦伟,高传善.计算机与信息处理[m].上海:复旦大学出版社,2001.
[2]陈小荷.中文信息处理概述[j].南京师范大学文学院学报,2002,(1).
[3]

[1] [2] 下一页

  • 上一个论文:

  • 下一个论文:


  • 看了《试论中文信息处理的主流技术》的网友还看了:
    [法律论文]试论疏忽大意的过失与过于自信的过失刑罚区分之必
    [法律论文]试论扣缴义务人刑事的责任的几点思考
    [法律论文]试论我国涉食品安全犯罪中的定罪与量刑标准
    [法律论文]试论青少年犯罪预防研究
    [法律论文]试论商业贿赂行为
    [法律论文]试论我国保险纠纷业内调处机制的完善
    [法律论文]试论审判实务视角下的分居制度构建
    [法律论文]试论布依族习惯法的变迁与发展
    [法律论文]试论环境利益与环境权
    [法律论文]试论我国反垄断法对自然垄断行业的规制

    计算机论文
    普通论文浅论网络交际对大学生心理发展的
    普通论文浅论企业信息化优势的保持
    普通论文论网络语言词汇的语义特点
    普通论文计算机网络管理维护探析
    普通论文消费管理系统的设计与实现
    普通论文浅析入侵检测技术现状发展
    普通论文浅谈计算机多媒体在教学中的作用
    普通论文探讨计算机辅助机械制图课程教学
    普通论文数据库的查询优化方法分析
    普通论文工业网络化生存:政治关怀与精神
    普通论文ERP系统在化工企业中的实施及
    普通论文浅谈加强青少年网络道德教育的对
    论文
    普通论文[免费范文]劳动保障系统总结表彰会
    普通论文[免费范文]“快乐童心,畅想六一”
    普通论文[企业管理]企业薪酬管理的七大问题
    普通论文[今日更新]论家长在外务工与小孩教
    普通论文[今日更新]托马斯关键公众接触法的
    普通论文[免费范文]项目管理的溯源、究根与
    普通论文[今日更新]世界电信产业管制体制改
    普通论文[今日更新]年终学校党委工作报告
    范文大全
    普通范文[实习报告]机电设备维修与管理实习
    普通范文[范文大全]林业厅长在林业系统视频
    普通范文[演讲稿]学校副校长就职演讲稿
    普通范文[范文大全]供电公司职工代表大会总
    普通范文[范文大全]2010年销售人员工作计划
    普通范文[个人简历]大学职业规划
    普通范文[范文大全]小学综合实践活动汇报材
    普通范文[申请书]困难补助申请书范文
    演讲致词
    普通演讲[庆典致辞]在XX高速公路通车仪式上的
    普通演讲[爱国演讲]祖国腾飞演说词
    普通演讲[竞聘演讲稿]新闻宣传部职员竞聘演讲
    普通演讲[个人礼仪范文]在人际交往中 如何为他人介
    普通演讲[会议发言稿]学生代表在期中考试总结会
    普通演讲[婚丧致辞]英文新婚祝福语
    工作范文
    普通党建工会[事迹材料]青春作色耀*(巡警中队长事
    普通总结[工作计划]2007县工商行政管理工作要
    普通汇报体会[心得体会]特殊学校慰问感想
    普通公文方案[公文写作]2007年度素质教育工作总结
    普通汇报体会[征文演讲]税务演讲稿:十年承诺,终生
    普通公文方案[公文写作]在建筑管理工作会议上的讲
    普通总结[工作汇报]专业技术员工个人履职情况
    普通公文方案[申报材料]教育局校园安全管理专项整
    普通汇报体会[工作体会]群众安全生产工作摆在(煤炭
    普通公文方案[活动方案]中小学庆祝建党90周年书法
    普通总结[工作总结]09年班主任军训工作总结
    普通公文方案[常用公文]高压线路下违章建筑整治工