| 基于Perl的词义消岐方法 |
摘要:该文介绍了一种基于Linux环境使用Perl语言实现的词义消岐小系统,算法主要由预处理、计算词向量和上下文向量多义词向量几个过程。通过计算某一义项与目标项的义项词语所具有相似性,比指示其他义项词语具有更强的相似性,以此为基础来完成多义词词义的消歧工作.并对语料进行实验得出结果分析不足,待进一步研究。
关键词:消岐;义项;向量
一种基于Perl的词义消岐方法研究与设计
The Research and Design ofWord Sense Disambiguation Based on Perl Programming
SHI Hai-feng1,3,SHI Jing2
(1.SuzhowUniversity College of Computer Sciences and Technology,Suzhou 215006,China; 2.Changzhou College of Information Technical, Changzhou 213164, China; 3.Jiangsu Polytechnic University,Changzhou 213164, China)
Abstract: The paper presents a smart system by Perl Programming based on Linux.The algorithm contents pretreatment, word vector computuing and sense vector computing. By Similarity Analysis between one sense and target item, finding the stronger Similarity than other words. And completing the word sense disambiguation. The results of testing the corpus shows the shortage, and there will be a further studing.
Key words: disambiguation; sense; vector
语言文字是信息的首要载体。随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高,可以认为一个国家的语言文字的信息处理水平和处理量基本上代表了这个国家进入信息社会的程度,其语言文字信息处理能力直接关系到它在网络社会和网络经济中的国际竞争能力。
本质上说,利用计算机进行自然语言处理是一个不断消歧的过程。词义歧义就是自然语言处理中很典型的一类歧义问题。自然语言处理过程中,在特定的上下文中的某一个词汇具有多个词义时,就可能出现词的歧义现象。
1 Perl语言
Perl被称为"骆驼"语言。发明perl的Larry Wall就说过:“Perl可能不好看或者不好闻,但是它能完成任务”。Perl的应用功能有很多,包括网络编程、系统管理和Web脚本编写语言等,此次主要关注的Perl的文本处理功能,其实Perl最初就是为了这个目的设计的。
2 算法分析与设计
本设计的基本思想是: 在上下文环境分布上,多义词某一义项与指求项的义项词语所具有相似性,比指示其他义项词语具有更强的相似性,以此为基础来完成多义词词义的消歧工作。具体过程如图1所示。
第一阶段: 把所用语料去除停用词,如的,地,标点等等。其中词用停表是在网上下载的。
第二阶段:形成词向量 (1)统计词数,词数大于80作为特征词。(2)二维词向量:每个特征词为一行,每个歧义词的一列,形成一个二维向量表,计算过程是如果一段包括歧义词,把这段出现的特征词词频在二维表中加一。把二维表中的每个词频作为特征词的消歧权重。其中语料是第一,三部分。
第三阶段:上下文向量 (1)从第一,三部分语料中抽取训练样例,条件是包括歧义词切词数大于60的一段上下文。(2)训练样例中词映射到词向量中形成上下文二维向量表。
第四阶段:计算词义向量(1)计算上下文的相似度,目前用的是最大相似度,计算每对上下文共同出现特征词的权重。(2)用聚类的算法聚成二类.目前已用的聚类算法是Average Link Clustering aka McQuitty’s Similarity Analysis。形成词义向量,词义向量=权重*上下文出数某特征词的次数/某一类的总上下文数总数
第五阶段:算法评估:(1)用到的是语料第二部分,抽取测试样例包括歧义词的一段上下文词数大于80。(2)映射到二个词义向量中,相加权重,分类。(3)计算正确率
其中语料来自东北大学网站上下载的1998年一~三月份的人民日报文章。已分过词,词与词中间用空格分开。单词数近300万,大小为20M。语料分为三部分,我们用其中的第一三部分作为训练语料,第二部分作为测试语料
程序运行时间:在一分钟之内。
3 实验结果与展望
目前仅测试是三个歧义词:发表,健康,保守。正确率是:79.3%
下一步工作是用新的特征抽取方法:tf.idf,信息增益。和聚类算法EM。采用鲁松,白硕,黄雄在《基于向量空间模型中义项词语的无导词义消歧》提出的基于义项词语扩展歧义词表,也就是用相同的歧义词表。
参考文献:
[1] 鲁松,白硕,黄雄.基于向量空间模型中义项词语的无导词义消歧[J].软件学报,2002,13(6).
[2] Schutze.h, Automatic word sense discrimination, Computational Linguistics,1998,24(1):97-124.
[3] Richard O.Duda Peter E.Hart.模式分类[M].2版.北京:机械工业出版社,2006:415-454.

相关标签: