热门关键词:

基于质量问题归零的知识检索技术研究

  • 该文件为pdf格式
  • 文件大小:723.59KB
  • 浏览次数
  • 发布时间:2014-08-15
文件介绍:

本资料包含pdf文件1个,下载需要1积分

质量问题归零是具有 中国航天企业特色的质量改进手段和质量保证措施.航天产 品具有精度高、系统复杂、项 目管理难度大、产品质量要求高以及产品使用环境恶劣等特点口].因此在航天产品研制与生产各环节乃至产品全生命周期 ,都要求做到凡是质量问题都应归零”,以确保航天产品质量的持续改进.质量问题归零业务会产生大量的质量 问题 、引发原因及其处理措施的信息和数据.这些信息和数据是企业人员在实施质量问题归零管理过程中不断积累的经验和知识 ,对企业产 品设计研发 以及产品质量改进具有重要的参考价值。

收稿 日期 :2013-05-l3基金项目:国防基雌研基金资助项 目(Co42110005);装备预研基金资助项目(51318OlOlO7)作者简介:周 冰 (1988-),男,黑龙江伊春人 ,硕士研究 生,主要从事企业信息化、现代质量工程研究。

技术人员对某-质量问题进行处理时 ,往往是首先从质量问题归零数据库中查找与待处理质量问题相似的质量问题案例,然后依据案例的分析和解决办法找到待解决质量问题的引发机理和解 决措施.然而,在企业现行质量问题归零管理系统 当中,对于产品故障概况”的描述使用的是文本语言,并且存储于质量管理信息系统数据库当中,而 目前的数据库查询语言(SOI )对于 自然语言的检索并不能很好地支持.因此 ,本文针对这-问题 ,研究-种质量问题归零的知识检索技术 ,试 图提高质量 问题知识库 的利用效率。

知识检索(Knowledge Retrieval,KR)是指在知识组织的基础上 ,从知识库中检索 出所需要 的知识的过程.它是-种基于知识组织体系,实现知识关联和概念语义检索的智能化的检索方式 ].马文峰 等人从知识检索概念、知识检索基储知识检索模型、知识检索呈现和知识检索系统几个方面,对知识检索的有关理论和方法做了梳理和分析,提出只有以领域知识本体的知识组织体系为基础,才能真正实现基于语义的知识检索.张佩云[3 等人研究了- 种基于本体的知识检索框架,并开发了具有语义检索和推理检索双重功能的系统.汪文颖 等人利用本体对逻辑推理的知识,研究了-种基于本体的知识检索框架.李飞 等人提出查询重写技术 以及权值传递算法,重点研究在于语义检索方面,把用户输入的关键字进行横向扩展和纵向精确并重写查询语句,与文献[3]相比并未对知识推理检索进行研究 ,但却给出了语义检索的评估算法 ,量化结果与原查询语句的语义距离并排序输出。

笔者通过对质量问题归零业务的研究 ,将知识《成组技术与生产现代化》2013年第 30卷第3期扩展 ,从词库中找到与 目标词汇意义相同或者相近的相关专业词汇并对其语 义进行标注,以此达到计算机理解 自然语 言的 目的.在质量 问题知识领域,包含大量的领域专业词汇(构成专业领域词典),需要在分词阶段从问题描述 中抽取出来.为了得到完整有效 的知识 ,需要对质量 问题描述词汇语义进行扩展,我们利用网络图对领域专业词汇库进行语义的相似度标注.具体标注方法如图 2所示。

图 2 故障”词汇语义标注以词汇故障”为例,在质量归零专业领域词汇库中可能存在与其语义相近的词汇如:质量问题、失效、失败、错误 、差错、不足等等.将这些词汇作为顶点构建网络图,由于语义的相关是不需要考虑方 向的,因此构建的网络图为无向网络图,这样可以从图中某顶点的任意边出发找到与其语义相近的词汇.图边表示词汇顶点的语义相关性,边的权值则表示两个相关的词汇的语义距离.例如 ,在图 2所示的故障”词汇语义标注 网络图中,质量问题”、失效”与故障”语义最为相近 ,可 以视为同义词 ,因此将三者两两相关联并标注语义距离为 1;而词汇失败”虽然在某种语境当中也有产品失效的含义,但多数情况下它与故障”、失效”等词汇无法相互替换,所以将其语义距离标注为 2.按照这样的语义标注原则对质量问题归零专业领域词库中语义相关的词汇进行标注,以便成质量问题归零领域专业词汇关联网络。

对专业领域词汇完成语义标注,即构建完成专业领域词汇无向网络图之后,我们从图中任意抽取两个词汇 ,都可以通过其连通路径算得其语义距离。

由于任意两个词汇 的连通路径可能并不唯- ,因此本文将基于无 向网络图的语义距离定义为各连通路径上权值之和中的最小值,记为 Dist(A,B),表示词汇 A 和 B的语义距离 ,数学表达式 如(1)所示。

其 中:Dist (A,B)表示第 i条连通路径 Weight 表示连通路径上第J条边的权值。

Dist(A,B)- min/9/st(A,B),Dist 2(A,B), ,D/st (A,B));D/ t (A,B)-∑WeightJ- 0(1)为了保证质量问题知识检索的准确性以及语义匹配算法的快速有效,在对质量问题描述信息进行语义横向扩展时 ,我们应 当取语义距离小于等于 3的词汇进行扩展.由于语义标注工作是质量归零知识检索的支撑性工作 ,是专业领域知识经验的输出,因此语义标定的准确性直接影响到知识检索的准确性.这就要求进行这项工作的知识管理员应当具备很高的专业领域经验素质,通常这-工作由领域内的专家承担。

3.2 语义的纵 向延伸在质量问题归零知识检索过程中,对于用户输入的故障描述只进行语义的横向扩展是不够的.有时用户输入的故障描述信息可能因过于抽象而影响检索效率.为了能够有效地引导用户将抽象概念具体化 ,帮助用户找到准确的质量问题案例 ,本文提出了基于概念从属树的语义纵向延伸方法。

概念从属理论 (Conceptual Dependency Theo-ry)是由美国计算机语言学家 Roger Schank提出的- 种用于计算机处理自然语言的理论方法.它的着眼点在句子 的意 义上,而不在句子的形式 上 .人类在对客观事物的认知与理解过程中,存在着某种概念基 ,语言的理解过程 就是把语句映射到概念基的过程 J.-个句子所包含的独立 于语 言的东西 ,不是句子的语法结构 ,也不是语义结构 ,而是它的概念结构 j.因此如果两个句子意义相同,那么它们的概念结构也应该相似.所谓概念的从属关系,就是指- 个概 念 的外 延包 含另 - 个概 念 的全 部 外延l7].其中前者为抽象概念,后者为具体概念.确定概念之间的从属关系的过程就是-个对概念的抽象化过程。

将某个知识领域 中的概念进行抽象化处理 ,确定概念之间的从属关系,使其形成具有不同抽象程度的层次概念节点并通过树模型来表示,称为概念从属树.树中每个节点都是知识领域 的-个概念。

其中父节点是抽象概念 ,子节点为具体概念,它们之间存在明确的分类方法.图 3为机械设计领域中机械传动概念的概念从属树。

《成组技术与生产现代化》20l3年第3o卷第 3期直图 3 机械传动概念从属树质量问题归零专业领域存在大量的概念,它们以专业领域词汇的形式存在于专业领域词库当中。

这些词汇之间除了存在横向的语义关联关系之外,有些词汇之间还存在从属关 系.我们要找到概念与概念之间的从属关 系,建立 质量 问题归零领域概念从属树 ,并对概念从属树上节点之 间的语义距离进行标注。

在概念从属树中,树中子节点概念为父节点概念的外延,子节点概念比父节点概念更加具体,并且每-个子节点概念都从属于父节点概念的某-个分类.但是上述方式构建出来的概念从属树不利于概念之间的语义距离 的标定 和计算 ,因此 本文在研究质量 问题归零领域概念从 属树 的构建时 ,对概念从属树进行了进-步的改进 ,如图 4所示。

图4描述了质量问题归零领域故障模式相关概念的概念从属树的部分内容.图 4(a)为传统形式的概念从属树.这种形式的概念从属树虽然在表现形式上 已经对子节点的概念进行 了分类描述 ,但每个子节点的概念都与故障模式”这-概念直接构成从属关系 ,子概念之间在语义上并不独立 ,这样给概念之间语义距离 的标注带来-定 的困难.因此 ,本 文将故障模式的分类概念引入概念从属树作为过度层 ,如图 4(b)所示.这种改进形式的概念从属树同传统形式的概念从属树相比的优点是:子概念之间在语义上是相互独立的 ,这样便可 以对概念之间的语义距离进行统-标注 ,而不需要考虑 同-层次 的子概念之间的分类关系。

概念从属树由于是由具有从属关系的抽象概念和具体概念构建而成的,因此不论对 于哪-个专业比图 4 故障模式概念从属树领域来说,都不可能通过-棵概念从属树来描述所有概念之间的关系。

这里,我们针对改进的概念从属树模型,讨论其节点概念之间的语义距离标注原则。

在质量问题归零概念从属树中,每-个节点上的概念即是其父节点的进-步具体化概念,同时又是其子节点 的进 - 步抽象化 概念.例如 图 4(b)中,机械故障模式”概念既是故 障模式”的具体化概念,又是开裂”、断裂”、变形”等概念的抽象化概念.因此 ,父 概念 和子 概念 之 间具有 直接的语义关联关系 ,只是他们 的具体 化程度不 同,本文将其称为语义的纵向深度不同.我们将父子概念之 间的语义距离标定为 1,如 图 5所示.处 于同-层次的概念,虽然其语义深度相同,但语义横向距离不同.当它们从属于同-父概念时,语义Group Technology & Production Modernization Vo1.30,No.3,2013 · 27 ·距离相对较 小 ,如 D和 E,其语义距离可 以由路 由(D,B),(B,E)计算得 到 (为 2);当它们从 属于不同的父概念时,语义距离相对较大,如 D和 F,其语义距离可以 由路 由(D,B),(B,A),(A,C),(C,F)计算得到(为 4).为了保证质量问题知识检索的准确性和高效率,在对质量问题描述信息进行语义的纵向延伸时,我们取语义距离小于等于 2的词汇进行扩展 ,即将某概念的父概 念、子概念 以及兄弟概念加入扩展词汇集合 中。

纵向横向图 5 概念从属树语义距离标 注通过概念从属树的构建以及基于概念从属树的语义距离的标定 ,可以将质量问题归零领域中的抽象概念和具体概念关联起来.知识需求者对待解决质量问题的描述 ,经过分词器的分析和过滤后得 到质量问题归零领域相关概念词汇 ,通过概念从属树 ,向上可以找到它们的进-步抽象化概念,向下可以找到它们的进-步具体化概念,从而达到在语义上的纵向延伸.不仅如此,从横向上也能够扩展 ,得到与它们从属于同-父概念的概念词汇,在横向上做到语义的进-步扩展。

4 基于语义距离的语义匹配算法在上述方法中,我们将知识需求者对问题描述的分词结果进行横 向扩展和纵 向延伸 ,可以得到对问题描述的-个词汇扩展集合.该集合中每-个通过语义扩展得到的词汇都携带-个语义距离的标注值,表示该词汇与原词汇集合中的词汇的语义距离,而对于原词汇集合 中的词汇,本文将其语义距离标定为 0.这样就可以通过-个二元组集合来描述扩展词汇集合 ,二元组表示方法 为 (Word,Dist),其中 Word表示词汇单元 ,Dist表示其语义距离.根据上文对扩展 词汇语义距 离的限定可 知,0≤Dist≤ 3。

扩展词汇集合的意义表示,集合中所有词汇都能在某种程度上描述知识需求者所遇到的待解决的质量问题.词汇的语义距离越小表示其对质量问题的描述越准确.因此,对于知识库中的质量问题案例,其描述信息所包含的扩展词汇集合中的词汇越多且词汇的语义距离越小 ,那么它所描述的质量 问题案例与待解决的质量问题就越相似.基于这-事实,本文提出了-种基于概念词汇语义距离和概念词汇频度的质量问题描述语义关联度计算方法:Rel∑exp(-0.5Dist,)Freq(i)Freq㈤ -其中:Rel表示质量问题知识库中某-质量问题案例与用户对待解决质量问题描述信息的语义相关度;Dist 表示语义扩展词汇库中第 i个词汇的语义距离标注值 ,即上 文 中所提 到 的扩展词 汇二元 组(Word,Dist)中的 Dist;exp(-0.5Dist )是将语义距离转化为0到 1之间的数值,且 Dist 的值越小时它的值越大 ;Freq( )表示第 i个词汇在质量问题案例描述信息中所出现的频度 ;N 为这个词汇 出现的次数;N 则表示质量问题案例描述信息经过分词器分析过滤后得 到的领域相关词 汇集合 中词汇 的数量。

我们通过-个简单的实例对式(2)所描述的语义关联度算法进行详细说明和验证.假设质量问题归零知识库中有 3条典型质量问题案例.它们的描述信息以及分词后的结果如表 2所示。

此时 ,有-技术人员需要对某-质量 问题进行处理 ,其输入的质量问题描述和经过语义扩展的分词结 果 如表 3所 示.其 中分 词结 果 二元 组 表示(W0r ,Dist )。

我们按照式(2),分别计算质量问题描述信息与3个质量问题案例的语义关联度,可得表 4所示的结果。

从计算结果来看 ,案例 3与待解决的质量 问题最为相似,案例 2与待解决的质量问题最不相似。

对上例分析可得,加入案例库的典型质量问题案例的描述,需尽量使用准确具体的词汇概念,而尽量避免使用模糊泛指的概念,以提高语义匹配的准确性和有效性。

《成组技术与生产现代化》2013年第 30卷第 3期表 3 质量 问题描述 及语 义扩展分词结果描述信息 齿轮减速箱齿轮产生腐蚀现象,导致齿轮减速箱无法正常工作分词结果(W0r ,,Dist )(齿轮减速箱,O)(齿轮,o)(齿轮传动,1)(齿轮参数,1)(齿面,2)(齿形,2)(齿高,2)(直齿齿轮,1)(斜齿齿轮 ,1)(锥齿齿轮 ,1)(齿条,3)(齿轮轴,3)(腐蚀,0)(机械类故障模式,1)(化学腐蚀,1)(间隙腐蚀,1)(点蚀,1)(断裂,2)(变形,2)表 4 质量问题相关度计算结果案例序号 Rel值0.5930.2660.7185 结束语质量问题归零是我国航天企业保证产品质量的重要手段,质量问题归零长期实施所积 累的大量有价值的经验和知识对于提高企业质量问题分析处理效率具有重要意义.本文通过对质量问题归零信息特点的研究 ,提出基于质量问题归零 的知识检索技术 ,主要解决质量 问题描述信息的 自然语言语义匹配问题.在质量问题归零知识检索技术中主要以概念词汇为研究对象,在质量问题 归零领域概念词汇库的支持下,通过分词、语义扩展、语义关联度匹配等方法,解决相似质量问题案例检索问题,使得质量问题归零知识具有重用的价值。

当然 ,本文 只是从概念词汇角度对语义关联度进行研究 ,在以后的研究中 ,将进-步考虑语法句型对语义关联的影 响。

正在加载...请等待或刷新页面...
发表评论
验证码 验证码加载失败