热门关键词:

浅谈语义关系的自动获取方法

  • 该文件为pdf格式
  • 文件大小:243.26KB
  • 浏览次数
  • 发布时间:2014-09-03
文件介绍:
本资料包含pdf文件1个,下载需要1积分

自然语言处理是计算机科学领域与人工智能领域中的-个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是-门融语言学、计算机科学、数学于-体的科学。

因此,这-领域的研究将涉及 自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是-般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的-部分。

大约 90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。

(2)对系统的输出,鉴于真实地理解 自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对 自然语言文本进行 自动地提取索引词,过滤,检索,自动提取重要信息,进行 自动摘要等等。

同时,由于强调了 大规模”,强调了 真实文本”,下面两方面的基础性工作也得到了重视和加强。

(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基矗没有它们,统计方法只能是无源之水。

(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息 (如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。

综合以上观点,我认为要想获得新的突破,靠现有的方法是远远不够的。因此,本文利用语义关系和词间关系,实现了-个语义关系的获取方法。

http:///1 语义关系和句法模式1.1字词间的语义关系语义关系是-个实词跟其他实词之间发生语义关系的能力,所有依赖于关系构成了-个巨大的语义网络。

定义 1词间关系词间关系是词与词之间具有某种语义关系的联系。这里的 W 是非空集合,R是在 w 上的二元关系。w的元素叫做节点或世界,而 R 叫做可及关系。

假设 w是所有词的集合,那么R是 w 上所有具有某种语义联系的词的偶对集合。很明显,R是 w×W的-个子集,有 R属于 w×W。

例如,词 w1与w2是 w 中的两个元素,若它们之间在语义上具有某种确定的关系 R(如同义、反义等),则称它们之间具有语义关系 R,记为wlRw2。

本文定义的词间主要的语义关联描述有:(1)Rs:从属,面向对象的继承,表示 Rs为<父亲,儿子>父亲∈W八儿子∈W八儿子是所有人的父亲,。说明:这种关系是白反的,反对称的,传递的,所以是 w 半序关系。

(2)Rcomp:组合,就是整体与部分的关系,表示<整体,部分>整体∈w八部分∈w八部分是整体的组合>。

(3)R 。 :主体,动作行为的发出者或经验者,他打开电视I小张生病了l狂风刮倒了房子。性状的发出者或经历者,雪白的百合I李四对张三很热情。

(4) hin船:与事,事件中的受益者或受损者,他给我-本书l李四偷走了张某-百块钱。

(5)RPreraises:处所,事件主 (客)体的空间位置,他经常睡沙发I河边站着两个人I字写在黑板上。

(6)R ynonym.同义,词义相同或相近。说明:这意味着相同或类似的这种关系是自反,对称和传递的,因此 w 上的等价关系,所有的同义字构成-个分区上的 w,w 被划分成若干等价类。

上面定义的几种方法部分从面向对象的思想之间的关系,这是现有的WordNet的,并且可以自动生成演绎、归纳和其他特性。这样做的-个词代表具体的事情看作是对象代表的身体作为-个单独的类,-个字,字与字之间中产生的最广泛使用的面向对象的关系,最直接的关系是第二承相结合,相关联的-些特点的子类可以继承自父类的系统自动推断的基本特征的子类同样地,该系统可以在父类中总结下子类的话,如果他们有某种相同属性的词或字操作,然后,Word会 自动在父类的。

1.2句法模式句法模式是-种语言,用来匹配语料库中的句子之间的关系。例: a是-种b”或 a是b的-种”,也就是两个用来发现模式的继承关系。

本文中模式的书写规则形式描述如下:(1) ,里面的词描述了-个取值范围,如 (父亲)代表继承关系中父类集合中的某个词。

(2),代表 1个或多个正好在它之前的那个字符,如 a代表 a、aa、aaa等。

(4)$,代表行结束符,如 。 $”能够匹配字符串 那里有-堆水果。”的旬尾。此符号在后文中主要用来断句。

(5)&,代表与的关系,如 (父亲 &N.)表示既符合父类又是名词的-个取值。

在语料库中的-个实trJ:s软玉主要是由透闪石、阳起石等组成的-种矿物。

- - 语料来 自新华网以上书写规则对应的模式为:M (整体 & 儿子)是由 ((部分)、),(部分)等组成的-种 (父.. 243。

另外,模式也有好坏之分。通过好的模式可以发现新的正确的关系。比如通过以上模式发现了语料中的三个关系:R。 。:软玉-透闪石,软玉-阳起石;Rs:软玉-矿物。

2 语义关系的获取方法2.1问题陈述定义 2词是语义代表概念实体的最小单元,其可以单独使用。

定义 3句子是能够表达-个完整的意思,由第 m个字 w有序的集合,-般穿插在句末用-个句号,问号,省略号,-个感叹号等结束,记为Sw wl w2 wm。

定义 4文章是由n个句子 S与段落标记的有序集合,As s1 S2 Sn。

定义 5语料库由P的文章不重复的A文章的集合,DA A1 A2 Ap。

假设已知:(1)自然语言中存在某些确定的词间关系 R1,R2,,这里用Ri统-表示。

(3)大规模语料库 D。如何利用已知的R 和 D扩充 Ri 为 ”,使得 Ri ∈Ri”且 ”/Ri趋向于(即如何利用已知的关系 R1 从 D中得到旧能多的未知关系)。

2.2问题分析既然 R是词间广泛存在的某种关系,这种关系又是存在于自然语言中的本质属性,那么 R必然在自然语言中有所体现。-个比较具体的例子是:现有大规模语料库 D1,保存有大量不同种类的常见文本。其中:句子 S1,S2∈D1,且 s1和 S2的内容为:S120年代初,天津马路上交通混杂,据当时新闻报道,天津马路上 每天要都通过五花八门的车辆-- 汽车、卡车、电车、电动车、三轮车以及黑压压的行人”。

S2最高与最矮的、最多与最少的,以及最自由散漫的行人。

若在分析此段语料之前,已有关于 车”的关系的记录,保存在两张表中,如表 1、2所示。

表 1相关词 synonym antonvrn grammar奎 车 辆 - L 尚 矮多 少表 2相 关 词 关 系 相 关 词 关 系交通 生 Ris.a 奎 马路 Rg至 汽车 Ris.a 生 速度 Ra吐r生 卡车 Ris-a 速度 多 Rar-v生 电车 Ris.a 速度 少 Ran v可见,需要做的就是找到-些种算法从语料库 D自动化的有效模式,然后利用各种模式找到更多的单词,从而扩大现有的关系集。

htp://2.3语义的获取算法对语料库 D中的所有文章 A进行预处理、断句、分词,得到所有句子的集合 S,并将所有句子的集合进行自动编号,如表 3所示。

表 3 关于句子的表ID sentence1 20年代初,天津马路上交通混杂,据当时新闻报道,天津马路上 每天要都通过五花八门的车辆--汽车、卡车、电车、电动车、三轮车以及黑压压的行人”。

2 最高与最矮的、最多与最少的,以及最 自由散漫的行人。

3表 3中-共有 m 个句子,在此表中每个单词数句是建立-个 m 位的二进制索引值,每个索引值的第 1个为 0(或 1),这个词没有 (或有)在第 i篇文章出现这种车辆在句子 S1,S2。在 S2中没有出现过,则末两位为 01♂果如表 4所示。

表 4 实验结果item ID Item inverted- -Index1 车辆 XXXxxx0l2 行人 XXXxxxl13因此,在系统中查询-个单词在句子中出现,删除-个 1比特的数字值可以被简单地读出的单词。

在实际使用中,多个 R,有-定的关系在 Wi称为词语,然后的 Wi∈R,其表示的w。。rch,它们被用作- 个关键字查询立即需要在同-时间,在哪个句子可以对它们进行查询结果:结果ANDi w 。 inverted-Indexi,导致为代表的二进制字符串的结果,可以得到最后的价值序列号读出符合要求的句子下-步,发现去噪预处理,标记,关系代词的句子更换冗余信息截肢后的工作,你可以得到-个模式提取的句型都将导致整理,读出句子对应的序列号,记录初始表中的句子,满足最初的需求记录在表中。

1 多个词合并的算法将所有具有两两的操作在同-个 w 且非零值的结果进行,并且所得到的结果为 1的位来表示三个句子相关词语同时出。

重复以上两两相运行,以确定新的结果同时出现几个相关词的句子,直到结果是全零或只有-个结果至今。

2 句中提取模式的算法整理的序列号对应的句子记录在初始表,初始全部要求的句子读的所有结果记录在表中。表项主要有:I 王壁兰 : I堡旦 墨垦 l 星坌塑 三 I根据这个初始表,找到句子的词性标注,关系代词,你可以得到-个模式的变化~模式记录在-张模式表中:I堡 壁量 l堡茎 l些 塑三 l堕 !里型耋此同时注意合并同类模式并记录相同模式出现的次数 T。

http:/// 由于在实际使用中的自然语言处理的多样性,也得到了很多毫无意义的模式,可以使用基于统计的方法来消除歧义出现的概率非常小的模式和关系视为无效。

3 实验及其结果可用于各种相关语义库的方法,如手动采集,结合程序自动导入现有的关系列表,完成库收购的初始关系的建立准备随后的自动采矿。

关于最后使用上面的方法编写PHP程序实现的发现模式和关系经历了最初的模式的过程如下,有效模式的初始关系,有效的关系。

4 结束语基于目前的现状和缺乏自然语言处理,建筑地基称为的重要性的知识基赐语义库和具体的半自动施工方法,计算机检索和分类的语义水平有-个可行的方法后的实验中,该方法可以大大提高了施工效率的语义关系,并在-定程度质量保证程度。其实,自然语言之间很多关系不能准确分类或不明显,在系统实现中,唯-的二元关系建模也暴露了-些不足之处,以后的工作将专注于语义关系模型的改进。

致谢本文是在程伟老师的热情关心和指导下完成的,他渊博的知识和严谨的治学作风使我受益匪浅,对顺利完成本论文起到了极大的作用。在此向他表示我最衷心的感谓 !REFERENCESl ZHANG Kuo,WU Gang,LI Juan·zi.Logical structure based seman-tic relationship extraction from semi-structured documentsc//Procofthe 1 5th International Conference on World Wide W eb.New York:ACM Press,2006:1063-1 0642 BERRY M J LINDFF G S.data mining technology[M].Beijing:Mechanical Industry Press,2006[31 Dai Ru.Science ofsocial inteligence[M].Shanghai:Shanghai Jiao Tong University press,2007[41 Cao Jing.Synonyms mining in the conceptual informion retrieval system of applied research[D].Changchun:Northeast NormalUniversity,20065 Rao Yining,Liu Qiang,Du Xiaoli,et a1.Suppointelligent search since extended knowledge base model research and design[J]。

Application Research ofcomputers,2006,23(6):223·2266 fqp:/tip.cogsci.princeton.Lx:lu/pub/ word net/5papers.ps,2005,02[71 XIA Sun,ZHENG Qing-hua.An approach to acquire semantic relationships between terms[C]//Proc of ACM Symposium onAppliedComputing.New York:ACM Press,2005:1630·1633[81 Liang Nanyuan.Written Chinese automatic segmentation system~CDWS[J].Journal ofChinese information,1987,1(2):44-52作者简介田霓光 (1976.),女,汉,硕士,讲师,研究方向:自然语言处理。2002年毕业于湖北大学计算机应用学士,201 1年毕业于武汉大学硕士。Email:12650812###qq.com-. 246。

正在加载...请等待或刷新页面...
发表评论
验证码 验证码加载失败