第28卷第3期。
计算机**201年3月。
文章编号。最大熵方法在英语名词短语识别中的应用研究。
王晓涓 ,赵。
春。1.黄淮学院计算机科学系,河南驻马店。
630新乡学院,河南新乡453
摘要:研究英语名词短语识别不仅是句法分析的基本问题,而且是进行机器翻译的基础。针对英语名词短语传统识别算法。
存在速度慢,效率低的难题,为提高识别准确率,提出一种基于最大熵原理的英语基本名词短语识别方法。首先综合考虑英。
语短语结构特性和上下文的位置来建立特征集模板,采用改进的频次和平均互信息相结合方法提取有效特征,表示为最大。
熵模型形式,最大熵原理完成最后的识别过程。对语料库中的英语名词短语进行**,证明改进方法对短语。
识别正确率和召回率均达90%以上,远远高于传统方法的识别率,是一种简单、快速、高效的英语名词短语识别方法。
关键词:最大熵;名词短语;特征提取;机器翻译中图分类号:tp
文献标识码:b
引言。方法。基于规则的短语识别方法采用规则来表示翻译知识,随着经济全球化快速发展,国家与国家之间的各方面交。
规则通常通过语言学家手工编写或语料库中自动获取,其优。
流越来越频繁以及能够获取有意义的情报,但是由于各国家点为易于理解,缺点是语法规律太多容易引起歧议,通用性。
的语言不同,这给人们的交流和沟通带来了极大的不便。而比较差 ]。基于规则常见的方法有bri法。
基于统计的识机器翻译具有速度快,机器不易疲劳,多种同时翻译的优点,别方法,又称为数据驱动的识别方法,它将机器翻译看成是。
因此机器翻译的研究逐渐引起了各国学者的重视 j。
一。个信息传输问题,用信道模型对机器翻译进行解释,常见。
机器翻译是通过计算机实现从一种自然语言到另一种的方法有贝叶斯网络、隐马尔可夫模型和决策树模型,是当。
自然语言的自动翻译,实际就是两种语言直接的转换 。短。
前主流机器翻译算法 j。基于机器学习的方法是近些年发语是英语中介于词汇和句子之问的一种句法成分,在机器翻展起来的人工智能方法,是一种具有记忆能力的方法,是实。
译中,英语基本名词短语识别有着重要的作用,其识别的效例中监督推导的学习模式,具有人工智能的特点。如遗传算果直接影响到机器翻译的准确性,因此国内外许多学者对其法、神经网络和支持向量机等模型,但是由于这些算法都有进行了深入的研究 。目前英语基本名词短语识别的方法自身的缺点,加上语法的规律太多,所以,目前这些模型的识分为三大类,分别为规则的方法、统计的方法和机器学习的。
别效果还不太理想 。
最大熵值法是一种基于统计的数据模型,其具有灵活和。
收稿日期:20一l5
简洁优点,受到许多研究人员的青睐,已经应用到计算语言。
14一。学的各个领域。由于其不依赖语言模型,因此,非常适合于解决英语名词短语识别问题。因此,本文针对当前英语基本名词短语方法存在的缺陷,提出一种将最大熵方法和bri方。
在获得到一个最为一致的分布的模型条件,得到最优的p(y值,则条件熵作为衡量最优的标准,条件熵定义为:
法相结合的英语基本名词短语识别算法。并对该算法进行验证性实验测试和分析,检测其效性和识别准确性。
日(p)一。
由条件熵应该满足如下限制:
英语名词短语识别原理。
英语名词短语是不仅英语的重要结构单位,同时也是信息传递的基本单位 j。识别是在一个已经完成了正确切分和词性标注处理的句子中确定名词短语的边界所处于的位。
置,将它们用括号正确地划分出来,并给其标上合适的名词短语标记。其对信息抽取、句法分析、机器翻译和语料库的研究等有着十分重要的意义。英语名词短语识别的输入是已经经过分词标注过的英语文本,输出结果是已经识别并标注好短语的英语文本。
英语名词短语识别模型如图1所示。
分词标注文本===短语识别器:::短语标注文本。
图1英语名词短语识别器。
假设b表示英语基本名词短语,i表示基本名词短语的内部;0表示其它情况。那么通过采用{b,形式可以将。
一。个英语基本名词短语识别问题转化为标注问题。
这样,一句英语的短语识别问题就转化为标注问题。当。
前自动标注有很多方法,最大熵方法在中文短语标记应用比。
较多,但是在英语基本短语识别鲜有报道,本文采用最大熵方法进行英语基本短语识别。
基于最大熵算法的英语基本短语识别。
.1最大熵算法。
假设对于有一个训练样本集合为其中每一个 (1
)表示一个上下,那么y(1
就表示对应的结果。对于此训练样本,可以通过经验分布公式获得(,y的经验分布,经验分布公式描述如下:
(,y音×co
其中,co表示样本在(,y出现的次数。
通过对样本集合的统计数据,为上述ⅳ个训练样本集合建立统计模型。在模型中引入特征函数,从而使模型对上下文的信息产生依赖 。假设表示特征函数的限制条件,则。有:
则训练样本的期望概率值为:
训练样本的经验值为:
为每一个特征引入一个拉格朗日算子,且为每个实例。
引进一个参数k()求出条件熵的最大值拉格朗日函数^
p,a定义如下:一p)+
一1)采用pa(来表示八(p,最大时的分布p(y则有:
其中,z 表示归一化因子,归一化公式为:
(,y表示特征函数,当满足特定的上下文条件时,特征函数为真,y表示标注结果。a 为特征的权重,表示该特征。
的重要程度,则a表示全部a 集合。
这样,最大熵原理就把一个有约束的优化问题转换成为一。
个没有约束的优化问题,:通过将a代人最大分布概率公。
式,则就解决了原始问题。
特征参数的确定。
在最大熵值算法法中,特征被定义为一种规则,用这些。
规则来捕捉数据中的规律性或数据的统计特性。而对英语名词短语识别来说,其规则是从语料中得到相应的语言知识。对一特定训练语料,根据其特征{,1就可以对。
其经验分布 ()和b(y进行统计,本文采用迭代算法来。
计算特征参数及经验分布。3.特征模板与特征选择。
英语名词短语识别算法特征的选取分为两步:第一步利用特征模板直接从语料中抽取候选特征,第二步为从候选特征集中选取特征。
.3.候选特征集合的构造。
特征模板是对特定信息和上下文的特定位置考虑,其主要功能根据某些特定位置的语言信息对当前词的出现概率是否有影响。例如对位置限于考虑英语名词短语的当前词。
来说,左右第1、第2个词;对信息仅限于考虑词性标注(p)标注()和和单词本身(w)种情况,忽略当前位置及之。一。
后的bio标注。那么可能的模板如图2所示。
当前位置。矗。
分类迭加取最大的标注结果。形式化表示为:
输入为:等识别的英语名词短语上下文 ;
)根据最大熵值算法对特征值进行学习,对输入词性标。
注的文本,把当前词满足条件的特征的参数按特征右部标注。
图2 特征模板构造示意图。
识别过程为:p(唧。
.3.特征集的选择。
通过采用特征模板所得到的候选特征集一般情况下包含多个特征,如果直接将这些特征进行判断,那么耗时相当的大,所以必须从中选择对输出影响较大的特征时,当前特输出为:已经标注好的y。基本流程如图3所示。
征选择方法主要有3种,分别为:增量式特征选择法、频次的特征特征选择法及全部特征建模。全部特征建模不现实,速度慢;增量式特征选择法对每选一个特征均要对所有的候选特征调用重新计算,计算量大,实现困难;频次算法没有考虑信息之间的互作,效果欠佳。
本文是用一种频次与平均互信息结合的特征选择算法,平均互信息大或对频次较高特征直接提取,这样使算法的特征选择效果更好。
假设已经建立的语言模型为p,用其与经验模型之间的距离来度量模型质量的好坏,这样相对熵可以被用来度量两个随机分布的差距,其定义如下:
这样,对模型p的求解应尽量使d(i最小。若根据特征模板从样本空间jsp中提取每个yi的候选特征子集 ,那么f={就表示整个样本空间的特征候选集表示特征在的候选特征子集中。
出现的频次数,如果 g(大于开始设置的阈值m,那么将它加入到有效特征集,中,阈值通过实验来设定。如果的出现频次数小于开始设置的阈值m,则通过概率计算特征。
与距离,若它们之间的距离为0,就表示与yj之间具有很强的相关性,可直接将加入有效特征集,中,不然的话,应用通过平均互信息算法选取特征。
蔓4 最大熵算法的英语名词短语识别方法。
英语名词短语识别步骤为:
)训练样本的选择。首先从语料库中随机选择若干个。
样本作为英语名词短语识别算法的训练样本。
)特征模板的建立。根据英语名词短语给定信息和上。
下文的特定位置,建立训练特征模板。
)采取频次与平均互信息对英语名词短语数据的训练集进行特征集合提取,并给每个特征设置相对应的参数和条件概率p(y特征参数是一个实数表示,说明特征的重要程度,用1和0表示,当特征参数为1时,就表示如果当前词满足这个特征的条件,那么这个词很可能标成特征的右部标。
记;如果参数为0,就表示当前词不可能标成特征的右部标记。具体表示如下:
图3最大熵的英语名词短语识别流程。
**研究。.1实验数据。
语料库是目前进行句法分析和短语识别最为权威的英语语料库,其包含了大量词性标注的文本,同。
时还包含了许多短语和句法结构标注。本文的**实验数据的英语名词短语来自其部分,分。
别选择训练和测试语料两部分,其中训练语料是wsj的l5
8部分,而测试语料为wsj加一22部分。**在c++程。
序环境下编程实现,硬件平台为硬。
盘为200软件平台为。
.2最大熵方法的测试结果。
表1为最大熵方法的测试结果。从表1可知,基于最大熵法的测试的准确率和召回率均达到90%以上,实现了英语。
基本名词短语识别的任务,说明最大熵方法是一种有效的识别算法。
表1最大熵方法下识别准确率和召回率。
.3特征选择与识别结果的关系。
结束语。图4表示特征选择数与识别结果的关系图,从图4可。
英语基本名词短语识别是自然语言浅层分析的主要研知,识别的结果与特征选择多少有关。当特征数多时,其对究内容,其是机器翻译的基础和重点问题,其目的是识别无。
问题描述相当全面,此时,获得训练和识别的效果就最好,但后修饰成分、非递归名词短语,针对当前英语基本名词短语是特征太多,训练和识别的时间太长,导致问题太复杂,■■
从而。识别中存在的不足,本文提出一种最大熵原理的基本名词短影响识别效率。所以通过本文频次与平均互信息法能够很语识别方法。该方法采有最大熵原理解决基本名词短语标。
好的解决这个问题,大大提高了效率,同时准确率也不错。注问题,并对其特征提取进行了改进,最后进行识别。**而频次和增量式特征提取算法的准确率相当的差,效率也十分的低,这说明本文对特征提取方法进行改进是有必要的,■■结果表明,相对于其它基本名词短语识别算法,本文提出的算法速度快,效率高,准确率也提高不少,是一种简单高效的同时也是有效的。
短语识别方法。
参考文献:静嚣9li
磐901]赵铁军.机器翻译原理[m]哈尔滨:哈尔滨工业大学出版社,幕。
全部特征本文算法频次法增量式。
2]刘群.统计机器翻译综述[j]中文信息学报一。
特征提取方法。
3]徐延勇,周献中,井祥鹤,等.基于最大熵模型的汉语句子分析。
j].电子学报。
图4表示特征选择数与识别结果。
4]张晶.基于语料库的英语从句识别研究[j]中文信息学报,.4与其它方法比较。
5]吕琳,周世斌,刘玉树.一种高性能英语词性标注器的设计与实。
为了进一步对本文算法的检验,采用几个典型的算法与现[j]北京理工大学学报。
本文算法进行了比较。对比算法分别为bri算法和贝叶斯[6]李素建,王厚峰,俞士汶,等.关键词自动标引的最大熵模型应。
网络算法,对比结果如表2所示,从表2可知,本文提出的基。
用研究[j]计算机学报。
于最大熵值算法的识别准确率最高,说明本文算法对英语名[7]周雅倩,郭以昆,黄萤菁,等.基于最大熵方法的中英语基本名。
词短语识别是非常有效的,非常适合解决名语短语识别、词词短语识别[j]计算机研究与发展一446
性标注、浅层分析等自然语言处理问题。
8]吕丹桔.汉语连续语音识别之音素声学模型的改进[j]计算。
机**。表2三种算法的识别结果比较。
作者简介]王晓涓(19一),女(汉族),河南驻马店人,硕士,讲师,网络技术及安全;
赵春(19一),男(汉族),湖北随州市人,硕士,讲师,研究方向:计算机网络。
上接第413页)
韩伟(19一),男(汉族),安徽阜阳人,硕士生,主要从事叶轮机。
械气动热力学研究;
高杰(19一),男(汉族),四川广安人,硕士生,主要从事叶轮机。
械流动理论与设计;
作者简介]李晓军(19一),男(汉族),甘肃金昌人,硕士生,主要从事叶轮机。
高丽敏(19一),女(汉族),陕西韩城人,博士,西。
械复杂流场的数值**。
北工业大学动力与能源学院副教授,主要从事航空。
与民用叶轮机械流动理论与设计,叶轮机械复杂流。
场及气动性能的数值**及测量技术;
一。17一。
名词动词化在现代英语中的应用
作者 魏华。新课程 教研版 2012年第01期。摘要 在现代英语中,名词动词化是一种常见的语言现象。名词动词化的应用可以使名词动作化,使语言生动 简洁,是现代英语的发展趋势之一。研究这一语言现象有助于增强学习者对词汇的活用能力,并有利于扩充词汇,值得研究与关注。关键词 现代英语 名词转换 动词化。现...
名词性从句在英语等级考试中的应用
尤雷雷齐建涛。宁波大红鹰学院外国语学院,浙江宁波。摘要 名词性从句一直以来都是英语等级考试中的。引导的主语从句。考点。名词从句是一种具有名词功能的非独立分句。一般当 作形式主语时,把主语从句放在句尾时可用 来说 名词性从句包括主语从句 宾语从句 表语从句。以或 但是,当主语从句放在句首时,只能用 不...
over在英语短语动词中的认知语义研究
作者 刘双。校园英语 上旬 2016年第07期。摘要 英语短语动词是动词与副词性或介词性小品词的组合,具有程度不同的语义整体性。因其在语言中的重要作用,传统语言学和近来的认知语言学都将其纳入各自的研究范围,短语动词的传统研究主要集中在对它的句法特点的研究而没有深入 语义。本文对短语动词的语义研究以认...