热门关键词:

基于综合加权法的主数据识别技术研究

  • 该文件为pdf格式
  • 文件大小:326.14KB
  • 浏览次数
  • 发布时间:2014-11-09
文件介绍:
本资料包含pdf文件1个,下载需要1积分

目前 ,在大型企业数据资源管理 中,由于缺乏统- 的数据标准 ,以及现有 的数据标准与 实际应用需求不符造成数据资源的利用现状与企业的实际需求差距较大 ,解决这- 问题 的关键 因素就是实现 主数据的标准化。

主数据(Master Data)是统-定义对象所需的核心数据。主数据管理将数据从应用和流程 中独立 出来 ,并且将其呈现为-系列可重用的服务 ,为企业提供共享的、完整的、准确 的主数据。由于流程管理、系统建设的差异,不 同的企业所关注 的主数据会有所不同;同-企业也会 由于不 同的业务发展 和系统建设时期 ,关注不同的主数据。因此 ,精确 的主数据识别技术是实现主数据管理的核心。

文献[1]介绍了主数据识别的流程将其划分为三个阶段:①识别和集中化语义元数据;②统-数据对象语义;③识别与资格化 主数据。Lei Wang等人通过研究从 业务流程 中识别 主数据 的步骤和方 法学,提出了-个 新的可以从 企业业务进程 中捕获主数据的设计方法论,同时 ,他们还提 出了-种构建元数据的方法论 。张德进 等人在文献 [3]中指出将主数据识别过程分为构建数据逻辑模型 ,识别 实体 、关系、属性、参考数据以及主数据等几个环节。

目前 ,尽管有部分文献对主数据识别进行 了研究 ,但是没有形成-套完整的主数据识别技术体 系。

本文通过综合分析 主数据识别 的步骤和方案 ,设计综合加权法 以精确确定主数据识别指标权值 ,并将其应用于主数据识别 ,实验结果表明,基 于综合加权法的主数据识别技术可快速准确的确定企业业务主数据 ,有效提高大型企业主数据管理效率 。

1 主数据识别 的流 程实施主数据管理,首先要解决如何从复 杂且 众收稿 日期 :2012-08-14基金项目:国家科技支撑计划(2012BAF12B14);贵州势技厅项目(黔科合计 z字[2012]4009)作者简介:刘涛(1987-),女,山东德州人,贵州大学管理学院硕士研究生,主要研究方向为数据管理技术;通讯作者:李少波(1973-),男 ,湖南岳阳人,贵州大学教育部现代制造技术重点实验室博士,教授,博士生导师,主要研究方向为物联网技术、计算设计、制造业信息化 ,(E-mail)1106605909###qq.corn;唐 向红(1979- ),男 ,湖南永 州人 ,贵州 大学教 育部现代 制造技 术重点 实验室博 士 ,副 教授,硕士生导师,主要研究方向为实时数据库系统、数据挖掘、数据管理技术。

2013年 3月 刘 涛 ,等 :基于综合加权法的主数据识别技术研 究 ·57·多的业务实体中准确识别 出企业主数据。主数据识别是-项复杂 的工程 ,必须基 于方法 论设计-套完整的主数据识别方法 ,建立主数据识别 的操作流程 ,才能有效完成主数据的识别工作。本文将主数据识别流程分为四个部分 ,如图 1所示。

图 1 主 数据识别流程(1)梳理数据实体类别。从业务角度出发 ,在不同粒度和层次上 系统地分析整个企业 的业务流程 ,得出在业务流程过程 中涉及到 的业务 实体 ,并 以此作为主数据识别的对象 ;(2)划分 数据 主题 域。通过 参 考 IBM 提 出 的IFW 模 型并充分结合企 业实际情况 ,整理并划分 主数据 的主题域 ;(3)构建数据概念模 型。概念模型 主要作用是描述事与物的概念化结构。本文采用 自底 向上的概念模型设计模式 ,根据需求分 析的结果对现实世 界的数据进行抽象 ,设计各个局 部视 图,并集成局部实视图形成整体视图 ,设计全局概念模型;(4)制定识别评分模版。评分模板的制定分为三个步骤:①确定主数据的识别指标;②利用综合加权法确定识别指标的权重;③制定主数据识别评分模版。

在主数据识别 的四个 步骤中 ,最 为关键 的是其评分模板的设计,通过对评分模板的设计,可以制定主数据的识别指标 ,通过对评分模板 的设计 ,可 以实现识别指标权重的最优化选择 ,从 而进-步 ,可 以确定被识别数据是否为主数据 。

2 主数据识别评分模版制定2.1 主数据识别指标主数据评分指标项的选取通过对 主数据识别标准的分析而获得 。综合业界研究 成果 ,同时考 虑大型企业集团网省两级架构 的特点 ,在确定 主数据 的评分指标 中,需要重点考虑以下 因素 。

(1)独立性 :主数据 的独立性是指主数据可以独立存在 ,不依赖于其他对象。

(2)共享性 :主数据通常作为不同业务部门之 间的共享数据。

(3)需要 :主数据带有 明显的功利特征 ,是为具体业务嘲、企业战略服务的。

(4)企业范围:主数据不涉及与外部系统的数据交换,即与外部系统的数据集成不在主数据研究范围内。

(5)业务价值:主数据描述了企业最核心的业务 ,是企业最有价值的资产 。

(6)多特征属性:主数据作为业务操作的主要对象 ,-般存在多个属性 ,用 于区分不 同操作对象 ,不同于普通 的编码表。

(7)基础性:主业务实体是基础的业务单元,它支持所有主要的业务行为或交易基础 ,-般最小不可拆分。

(8)复杂性 :主数 据-般涉及 多个业务系统,因此具有较高的复杂性。

(9)周期性:通常主数据会在长时间内被使用,生命周期较长,因此数据元素的生命周期可以用来作为判定它是否是主数据的标准之-。

(10)流动性 :虽然主数据的变化应该少于交易数据,但是完全不变化的数据元素不应该判定为主数据。

根据主数据以上特性 ,结合 大型企业 的实际情况和专家组意见 ,最终确定 了主数 据识别 的以下九大评分指标 ,见表 1。

表 1 主数据识别指标指标名称 含义 标准值独立性 主数据可独立存在.不依赖其他对象 是主数据-般作 为不 同业务部 门之 间的 共享性 是共享数据业务操作 主数据-般是业务操作的主要对象,不 是主要对象 随业务操作变化存在多个 主数据-般存在很多属性,用于区分不 是特征属性 同操作对象。

随业务 主数据的变化主要依赖于业务实体 自 否操作改变 身属性变化,不依赖于业务操作。

完全 主数据的变化应该少于交易数据,但不 否不变化 是完全不变化 的数据生命 通常主数据会在长时间内被使用 ,它的 是周期 长 生命周期较长惟-性 主数据能够惟-识别业务属性 是基础性 主数据是基础数据非衍生数据 是2.2 基于综合加权法的识别指标权重确定主数据识别过程中的关键步骤是确定识别指标的权重。主观赋权法和客观赋权法是 目前常用的两类权重确定方法 。主观赋权法依据决策者的意向确定各指标间的权重系数,决策或评价结果具有很大的主观随意性 ,常用的有德尔菲法,层次分析法等。而客观赋权法确定各指间的权重系数 ,决策或评价结果虽然具有较强的数学理论依据 ,但无法反应决策者的意向,常见的有主成分分析法、因子分析法等。 。为克服单-赋权法的缺陷 ,本文提出-种将主成分分析法与德尔菲法进行集成的综合加权法 。采用综合加权法对识别指标赋予权重。其核心思想如下:首先,参考行业相关信息、IBM的 IFW模型,并借鉴已建立起主数据管理体系的公司的经验及相应统计信息,找出针对本企业的五个极具可能为主数据的实体,分别计算出主数据识别九大指标的数据资料。

(1)将 给出九大指标 的数据资料 的原始数据进行标准化处理 ;· 58· 组合机床与 自动化加工技术 第 3期(2)采用德尔菲法对这九个指标在主数据识别中的权重进行打分 ,九项指标的权重为 :(Otl,Ot2,Ⅱ3,Ot4,Ol5,Ot6,Ot7,Ot8, 9)对每-指标变量分别乘 以权重 系数,得到修正以后的数据矩阵 。

对 中的指标数据进行主成分分析 ,得 出最终的指标权重。

(1)求指标数据的相关矩阵(2)用雅克 比方法求相关系数矩阵 尺的特征值(A.,A ,,A。)和相应 的特征 向量 Z (Z Z ,Z ),i1,2,,p(3)选择重要的主成分 ,并写出主成分表达式。

主成分分析可 以得到 P个主成分 ,但 由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,-般不是选取 P个主成分,而是根据各个主成分 累计 贡献率 的大小选取 前 m 个主成分,这里贡献率就是指某个主成分 的方差 占全部方差的比重,即某个特征值占全部特征值合计的比重,计算公式如下 :贡献率 :∑A贡献率越大 ,说 明该 主成分所包 含的原始变量的信息越强。在 主成分个数选取中 ,要求 累计贡献率达到85%以上,保证综合变量能包括原始变量的绝大多数信息。

(4)根据主成分 累计贡献率 85% ,选择 m个 主成分 A(k.,k , ,k )。各特征值相应 的特征向量为:(z ,z ,,z )然后计算得出各指标的权重:FA (f,,,l )( , , ,Y4, , )2.3 构建主数据识别评分模版依据综合加权法得到的主数据识别权重构建主数据识别评分模板 ,通过评 分模板工具得 出被识别数据疑似为主数据的分数。

取数据概念模型 的业务 实体 B,将分析 出的九大识别指标作为评分指标项 ,以及 由综合加权法得出的识别指标权重 ,构成评分模板 的行 和列及各列值的权重 ,同时分析各 业务 实体 与各识别指标 的关联度填入评分模板。

对于任意业务实体 , ∈1,2,3,n,假设它与第 i个评分指标的关联度为 A ,i∈1,2,3,9,若符合第 i个评分指标 ,则 Ai1,否则 Ai0。最终构建主数据识别评分模板工具 。求出业务实体 ,。

通过评分模板分别求出各业务实体的分值,并依据企业需要及专家意见,设定主数据识别得分阈值 ,得分不小于阈值的业务实体,就是企业亟需管理的主数据。

3 仿真结果及分析应用综合加权法 ,对某大型电力企业进行 了数据实体类别梳理、数据主题域划分、数据概念模型构建 、识别评分模版制定 ,计算得出主数据识别试题得分 ,并对仿真结果进行分析。

(1)参考 IFW 模型并充分结合企业的实际情况,整理并划分出主数据的六大主题域,包括:参与方、资源、位置、分类、协议 、经营方针 。分析得 出参与方主题域 中的数据实体及其指标,如表 2所示。

首先,参考同行业 相关信息、IBM 的 IFW 模 型,并借鉴已经建立起主数据管理体系的公司的经验及相应的统计信息 ,最终确定 找出针对本企业 的五个极具可能为主数据 的实体分别为:供应商,客户 ,地址 ,资产 ,物资。

①统计得出这个主数据实体的主数据识别九大指标的数据 ,并进行标准化。

②根据企业 的需求 ,专家给定 的九个指标在 主数据识别 中的权重分别为:(0.10,020,0.10,0.10,0.15,0.05,0.15,0.05,0.10)。利用综合加权法表 2 实体主数据识别九大指标数 据指标 独立性 共享性 业务操作 存在多个 不随业务 不是完全 生命周实体 主要对象 特征属性 操作改变 不变化 期较长 惟-性 基础性组织机构 0.92 0.93 0.89 0.98 O.87 0.79 O.98 O.85 0 95员工薪资 O.21 0.35 O.37 O.85 O.12 O.85 O.23 O.12 0 32员丁 0.89 0.95 O.89 0.96 0.87 0.78 0,9l 0,86 O.92客户订单 O.15 O.17 0.23 0.76 0.O9 0.59 0.22 O.15 0.19客户 O.89 0.93 0.89 O.96 0.87 O.85 O.96 O.89 0.97投诉记录 O.21 0.14 O.13 0.69 O.1l O.56 O.19 O.O8 0.10客服申请 0.10 O.08 O.13 O.68 O.13 O.9O O.13 O.08 O.1O供应商 O.96 0.89 0.95 0.92 0.9l 0.75 0.95 O.89 0.92电力企业 0.95 0.76 0.89 O.92 O.90 0.83 O 92 0.95 0 972013年 3月 刘 涛,等:基于综合加权法的主数据识别技术研究 ·59·计算得出九个指标最终的权重如表 3所示。

表 3 主数据识别指标权 重指标名称 权重 指标名称 权重独立性 7.23% 不是完全不变化 0.37%共享性 l3.42% 生命周期较长 l6.75%业务操作主要对象 16.92% 惟-性 2.55%存 在多个 特征 属性 3.90% 基础性 l8.5l%不随业 务操作 改变 l9.95%(3)根据企业情况需求和专 家的意见 ,设定主数据识别得分阈值为 0.75。

依据综合加权法得到的主数据识别权重构建主数据识别评分模板 ,通过评 分模板工具得 出被识别数据疑似为主数据的分数 ,如表 4所示。

表 4 主数据识别 实体得 分实体名称 得分 实体名称 得分组 织机构 o.9183 投诉记 录 O.1592员工薪资 0.2857 客服申请 O.1379员丁 0.9009 供应商 O.92l8客户订单 0.1982 电力企 业 0.8977客户 0.9l68经分析得出,实体组织机构、员工、客户、供应商及 电力企业 的得分不低于已定的主数据识别得分 阈值 0.75,所 以可以判定 ,在本企 业 中,组织 机构、员工、客户、供应商及电力企业为需要集中进行管理的主数据 ,见 图2。

壶蒌机构 薪资 员工 订单 客户 投诉 申请 供应商 企业被识别实体名称图 2 主数据识别 实体得 分4 结束语本文对主数据管理中的主数据识别技术进行 了研究 ,通过对 主数据 识别方案及其关键 技术的研究与比较分析 ,基于企业需求 ,设计 了-种规范化 的企业主数据识别流程 ,包括数据实体类别梳理 、数据主题域划分 、数据概念模 型构建 、识别评分模版制定 四个步骤。

为克服单 -赋权法 的缺 陷,本文提 出了将主成分分析法与德尔菲法进行集成的综合加权法,并基于综合集成加权法设计主数据识别评分模版。

实验结果表明基于综合加权法的主数据识别技术是-套可以扩展的主数据识别方法 ,可快速准确地确定企业主数据,有效提高大型企业主数据管理效率。

正在加载...请等待或刷新页面...
发表评论
验证码 验证码加载失败